Extracção de texto
de qualquer PDF.
Obtenha uma camada de texto limpa de qualquer PDF — parágrafos preservados, várias páginas, UTF-8. A extração corre dentro do seu navegador, por isso o ficheiro nunca sai do seu dispositivo.
Verifique você mesmo: abra o DevTools → separador Network → solte um ficheiro. Veja zero envios a acontecer.
Três passos. O seu PDF nunca sai deste separador.
Largue o seu PDF
Escolha o ficheiro do qual quer extrair texto. É carregado para a memória do navegador, não para um servidor.
Lemos a camada de texto
O pdf.js percorre cada página, ordena os elementos pela coordenada Y e reconstrói as quebras de parágrafo no sítio certo.
Copie ou descarregue .txt
Receba texto puro UTF-8 limpo. Copie para a área de transferência ou guarde como .txt — você decide.
Quando quer o texto e não o PDF
As razões para extrair o texto de um PDF giram quase sempre em torno do mesmo: levar as palavras a um sítio onde o PDF não entra. Quer colar uma citação num e-mail sem arrastar o PDF como anexo. Está a alimentar um documento longo a um assistente de IA que aceita apenas texto simples. Quer fazer grep a um relatório de 200 páginas à procura de uma frase e a pesquisa do leitor está a esconder algo. Está a traduzir um contrato e a ferramenta de tradução quer a fonte como ficheiro plano. Está a passar um manuscrito já paginado de um PDF de volta para um editor de texto. Em todos estes casos é o invólucro que atrapalha — as palavras estão bem, só estão presas numa paginação difícil de recompor.
A saída aqui é exactamente isso: texto simples, um único .txt grande, na mesma ordem em que o PDF se lê. Sem formatação, sem tipos de letra, sem imagens, sem tabelas-como-tabelas. A tarefa é libertar as palavras.
O que «extrair» faz na verdade
Um PDF guarda dois tipos de «texto». Texto verdadeiro — caracteres desenhados com tipos de letra que o PDF marca como letras — vive numa camada de texto. Essa camada a ferramenta lê directamente. O outro tipo é texto que existe apenas como píxeis: tudo o que foi digitalizado, fotografado ou capturado como imagem antes de ser metido no PDF. Esses caracteres são imagens de letras, não letras, e nenhum extractor os vê como texto sem OCR. Aqui não há passo de OCR.
Duas verificações rápidas dizem que tipo de PDF tem. Abra-o num leitor qualquer, clique e arraste sobre um parágrafo: se o texto se selecciona limpamente, há camada de texto e a extracção funciona. Se o cursor desenha um rectângulo e nada se selecciona, a página é uma imagem e tem de passar primeiro por OCR (noutra ferramenta) para que o extractor tenha algo para ler.
Como saem quebras de linha e parágrafos
Os PDF não guardam parágrafos. Por dentro, uma página é um saco de fragmentos de texto com posições — nenhum metadado a dizer «termina aqui o parágrafo». Texto simples legível sem quebras não existe, pelo que a ferramenta as deduz dos espaços verticais: pequeno espaço entre linhas torna-se uma quebra simples, espaço maior (do tipo que os designers deixam entre parágrafos) torna-se uma linha em branco. Os casos comuns saem certos: corpo de texto, títulos, listas. Quando o designer usou espaços invulgares para outra coisa, a ferramenta não adivinha e esses pontos podem precisar de pequena revisão.
As páginas ficam separadas por uma linha em branco na saída. Se prefere não ter separadores de página, um localizar-e-substituir da quebra dupla por uma simples remove-os.
O que não sobrevive à extracção
- Negrito, itálico, tipos de letra, cor, alinhamento. Texto simples é plano. Se precisa preservar a formatação, veja pdf-to-word.
- Tabelas. As células passam a texto simples por ordem de leitura — habitualmente linha a linha, muitas vezes com espaçamentos desajeitados. As tabelas que têm de continuar a ser tabelas pertencem a pdf-to-excel.
- Imagens e diagramas. O que no PDF não era texto não aparece no texto. Para extrair as imagens à parte, veja pdf-to-jpg.
- Cabeçalhos e rodapés. Se o original repetia «Confidencial — página X de Y» em cada página, o texto extraído fará o mesmo. Um localizar-e-substituir tira-os em segundos.
- Palavras quebradas com hífen no fim de linha. Uma palavra rompida por hífen sai como
algu-\nmaem vez dealguma. Se importa para a pesquisa ou correcção ortográfica posterior, uma regex-\n→ vazio resolve. - Paginações em várias colunas podem entrelaçar-se. Um artigo científico a duas colunas pode sair com frases da coluna esquerda e direita alternadas. Documentos numa só coluna — a maioria dos relatórios, contratos, livros — não são afectados. Quando um resultado entrelaçado é inutilizável, é mais limpo abrir o PDF numa ferramenta que respeite a ordem das colunas antes de voltar a extrair.
Algumas notas práticas
- Se o PDF estiver protegido por palavra-passe, passe-o primeiro por unlock-pdf. PDF cifrados não podem ser abertos para extracção de texto.
- Para PDF muito grandes (centenas de MB, milhares de páginas) a extracção corre na mesma no browser. No computador raramente é problema; num telemóvel com uma digitalização de 500 páginas, o tecto é a memória do browser. Nesse caso, no computador.
- A saída é UTF-8. Cirílico, grego, árabe, chinês, latim com diacríticos passam limpos quando o PDF os guardou como texto verdadeiro. PDF que desenhavam caracteres não latinos como glifos de subconjunto embebidos sem codificação correcta produzem lixo na extracção — é problema do PDF, não do extractor. Resolve-se na origem: reexportar com codificação Unicode correcta.
- Padrão do nome. Um ficheiro
contract.pdfé descarregado comocontract.txt. O PDF no disco fica onde estava.
O que acontece ao seu ficheiro
A extracção corre no seu browser. Abra as DevTools e observe o separador Network durante a operação — sem pedidos a sair com conteúdo do ficheiro. O PDF fica no disco; o .txt é um descarregamento novo ao lado.
Perguntas frequentes
Como funciona a extração?
Usamos o pdf.js da Mozilla para ler a camada de texto incorporada do seu PDF página a página. Os elementos são agrupados pela coordenada Y para que as quebras de parágrafo se mantenham — sem servidor, sem upload.
Funciona em PDFs digitalizados?
Não. As digitalizações são imagens de texto, não texto — extraí-las requer OCR, que esta ferramenta não executa. Se o seu PDF veio de papel digitalizado, precisa primeiro de uma ferramenta de OCR.
O meu ficheiro é enviado para algum lado?
Nunca. A extração corre inteiramente no seu navegador via WebAssembly — verificável em DevTools → Network. O ficheiro permanece no seu dispositivo.
E PDFs protegidos por palavra-passe?
Desbloqueie o PDF primeiro com a nossa ferramenta Desbloquear PDF e depois extraia. Streams de conteúdo encriptados não podem ser lidos sem a palavra-passe.
Qual é o limite de tamanho?
Até 100 MB. Acima disso pode esgotar a memória do navegador — divida primeiro com a ferramenta Dividir PDF.