Extraia texto de qualquer PDF,
no seu navegador.
Obtenha uma camada de texto limpa de qualquer PDF — parágrafos preservados, múltiplas páginas, UTF-8. A extração roda dentro do seu navegador, então o arquivo nunca sai do seu dispositivo.
Verifique você mesmo: abra o DevTools → aba Network → solte um arquivo. Veja zero uploads acontecerem.
Três passos. Seu PDF nunca sai desta aba.
Solte seu PDF
Escolha o arquivo do qual quer extrair texto. Ele é carregado na memória do navegador, não em um servidor.
Lemos a camada de texto
O pdf.js percorre cada página, ordena os itens pela coordenada Y e reconstrói as quebras de parágrafo onde devem ficar.
Copie ou baixe .txt
Receba texto puro UTF-8 limpo. Copie para a área de transferência ou salve como .txt — você decide.
Quando você quer o texto e não o PDF
Os motivos para extrair texto de um PDF quase sempre giram em torno da mesma coisa: levar as palavras pra onde o PDF não entra. Você quer colar uma citação num e-mail sem arrastar o PDF como anexo. Tá alimentando um documento longo num assistente de IA que só aceita texto puro. Quer dar grep num relatório de 200 páginas atrás de uma frase, e a busca do leitor tá escondendo algo. Tá traduzindo um contrato e a ferramenta de tradução quer a fonte como arquivo plano. Tá puxando um manuscrito já diagramado de um PDF de volta pra um editor de texto. Em todos esses casos quem atrapalha é o invólucro — as palavras estão certas, só estão presas numa diagramação difícil de remontar.
A saída aqui é exatamente isso: texto puro, um único .txt grande, na mesma ordem em que o PDF é lido. Sem formatação, sem fontes, sem imagens, sem tabelas-como-tabelas. O trabalho é libertar as palavras.
O que «extração» realmente faz
O PDF guarda dois tipos de «texto». O texto de verdade — caracteres desenhados com fontes que o PDF marca como letras — vive numa camada de texto. Essa camada a ferramenta lê direto. O outro tipo é texto que existe só como pixel: tudo escaneado, fotografado ou tirado em print antes de ir pro PDF. Esses caracteres são imagens de letras, não letras, e nenhum extrator vê eles como texto sem OCR. Aqui não tem passo de OCR.
Duas verificações rápidas dizem qual PDF você tem. Abre ele em qualquer leitor, clica e arrasta por um parágrafo: se o texto se seleciona limpinho, tem camada de texto e a extração vai rodar. Se o cursor desenha um retângulo e nada se seleciona, a página é uma imagem e antes precisa passar por OCR (em outra ferramenta) pro extrator ter algo pra ler.
Como saem quebras de linha e parágrafos
O PDF não guarda parágrafos. Por dentro, a página é um saco de fragmentos de texto com posições — nenhum metadado dizendo «aqui acaba o parágrafo». Texto puro legível sem quebras não existe, então a ferramenta deduz a partir dos espaços verticais: espaço pequeno entre linhas vira uma quebra simples, espaço maior (o que os designers deixam entre parágrafos) vira uma linha em branco. Os casos comuns saem certos: corpo, títulos, listas. Quando o designer usou espaços incomuns pra outra coisa, a ferramenta não adivinha e esses pontos podem pedir um ajuste leve.
As páginas ficam separadas por uma linha em branco na saída. Se você prefere sem separadores de página, um localizar-e-substituir da quebra dupla por uma simples tira eles.
O que não sobrevive à extração
- Negrito, itálico, fontes, cor, alinhamento. Texto puro é plano. Se precisa preservar formatação, veja pdf-to-word.
- Tabelas. As células viram texto puro na ordem de leitura — geralmente linha a linha, muitas vezes com espaçamentos esquisitos. Tabelas que precisam continuar tabelas pertencem ao pdf-to-excel.
- Imagens e diagramas. O que no PDF não era texto não aparece no texto. Pra extrair imagens separadas, veja pdf-to-jpg.
- Cabeçalhos e rodapés. Se o original repetia «Confidencial — página X de Y» em cada página, o texto extraído faz igual. Um localizar-e-substituir tira em segundos.
- Palavras quebradas com hífen no fim de linha. Uma palavra cortada por hífen sai como
algu-\nmaem vez dealguma. Se importa pra busca ou corretor depois, uma regex-\n→ vazio conserta. - Layouts em várias colunas podem se entrelaçar. Um artigo científico em duas colunas pode sair com frases alternando entre coluna esquerda e direita. Documentos em coluna única — maioria de relatórios, contratos, livros — não são afetados. Quando o resultado entrelaçado fica inutilizável, o jeito mais limpo é abrir o PDF numa ferramenta que respeita a ordem das colunas antes de extrair de novo.
Algumas notas práticas
- Se o PDF tem senha, passa antes pelo unlock-pdf. PDFs criptografados não podem ser abertos pra extração de texto.
- Pra PDFs muito grandes (centenas de MB, milhares de páginas) a extração roda no navegador do mesmo jeito. No desktop raramente é problema; no celular com um escaneamento de 500 páginas o teto é a memória do navegador. Nesse caso, vai pro desktop.
- A saída é UTF-8. Cirílico, grego, árabe, chinês, latim com acentos passam limpos se o PDF guardou como texto de verdade. PDFs que desenhavam caracteres não-latinos como glifos de subset embedados sem codificação certa produzem lixo na extração — é problema do PDF, não do extrator. Conserta na origem: reexportar com codificação Unicode certa.
- Padrão do nome. Um arquivo
contract.pdfbaixa comocontract.txt. O PDF no disco fica onde tava.
O que acontece com seu arquivo
A extração roda no seu navegador. Abre o DevTools e observa a aba Network durante a operação — nenhuma requisição saindo com o conteúdo do arquivo. O PDF fica no disco; o .txt é um download novo do lado.
Perguntas frequentes
Como funciona a extração?
Usamos o pdf.js da Mozilla para ler a camada de texto incorporada do seu PDF, página por página. Os itens são agrupados pela coordenada Y para que as quebras de parágrafo sejam preservadas — sem servidor, sem upload.
Funciona em PDFs digitalizados?
Não. Digitalizações são imagens de texto, não texto — extraí-las exige OCR, que esta ferramenta não executa. Se seu PDF veio de papel digitalizado, você precisará primeiro de uma ferramenta de OCR.
Meu arquivo é enviado para algum lugar?
Nunca. A extração roda inteiramente no seu navegador via WebAssembly — verificável em DevTools → Network. O arquivo permanece no seu dispositivo.
E PDFs protegidos por senha?
Desbloqueie o PDF primeiro com nossa ferramenta Desbloquear PDF, depois extraia. Fluxos de conteúdo criptografados não podem ser lidos sem a senha.
Qual é o limite de tamanho?
Até 100 MB. Acima disso pode esgotar a memória do navegador — tente dividir o PDF antes com a ferramenta Dividir PDF.