Extracção de Texto

Extracção de texto
de qualquer PDF.

Obtenha uma camada de texto limpa de qualquer PDF — parágrafos preservados, várias páginas, UTF-8. A extração corre dentro do seu navegador, por isso o ficheiro nunca sai do seu dispositivo.

Largue o PDF do qual deseja extrair texto
Lemos a camada de texto incorporada com pdf.js — sem OCR, sem servidor.

Verifique você mesmo: abra o DevTools → separador Network → solte um ficheiro. Veja zero envios a acontecer.

Várias páginas · Saída UTF-8 PDFs digitalizados precisam de OCR — esta ferramenta lê apenas a camada de texto
Grátis
Sem registo
Sem upload
Saída UTF-8
COMO FUNCIONA

Três passos. O seu PDF nunca sai deste separador.

1

Largue o seu PDF

Escolha o ficheiro do qual quer extrair texto. É carregado para a memória do navegador, não para um servidor.

2

Lemos a camada de texto

O pdf.js percorre cada página, ordena os elementos pela coordenada Y e reconstrói as quebras de parágrafo no sítio certo.

3

Copie ou descarregue .txt

Receba texto puro UTF-8 limpo. Copie para a área de transferência ou guarde como .txt — você decide.

Quando quer o texto e não o PDF

As razões para extrair o texto de um PDF giram quase sempre em torno do mesmo: levar as palavras a um sítio onde o PDF não entra. Quer colar uma citação num e-mail sem arrastar o PDF como anexo. Está a alimentar um documento longo a um assistente de IA que aceita apenas texto simples. Quer fazer grep a um relatório de 200 páginas à procura de uma frase e a pesquisa do leitor está a esconder algo. Está a traduzir um contrato e a ferramenta de tradução quer a fonte como ficheiro plano. Está a passar um manuscrito já paginado de um PDF de volta para um editor de texto. Em todos estes casos é o invólucro que atrapalha — as palavras estão bem, só estão presas numa paginação difícil de recompor.

A saída aqui é exactamente isso: texto simples, um único .txt grande, na mesma ordem em que o PDF se lê. Sem formatação, sem tipos de letra, sem imagens, sem tabelas-como-tabelas. A tarefa é libertar as palavras.

O que «extrair» faz na verdade

Um PDF guarda dois tipos de «texto». Texto verdadeiro — caracteres desenhados com tipos de letra que o PDF marca como letras — vive numa camada de texto. Essa camada a ferramenta lê directamente. O outro tipo é texto que existe apenas como píxeis: tudo o que foi digitalizado, fotografado ou capturado como imagem antes de ser metido no PDF. Esses caracteres são imagens de letras, não letras, e nenhum extractor os vê como texto sem OCR. Aqui não há passo de OCR.

Duas verificações rápidas dizem que tipo de PDF tem. Abra-o num leitor qualquer, clique e arraste sobre um parágrafo: se o texto se selecciona limpamente, há camada de texto e a extracção funciona. Se o cursor desenha um rectângulo e nada se selecciona, a página é uma imagem e tem de passar primeiro por OCR (noutra ferramenta) para que o extractor tenha algo para ler.

Como saem quebras de linha e parágrafos

Os PDF não guardam parágrafos. Por dentro, uma página é um saco de fragmentos de texto com posições — nenhum metadado a dizer «termina aqui o parágrafo». Texto simples legível sem quebras não existe, pelo que a ferramenta as deduz dos espaços verticais: pequeno espaço entre linhas torna-se uma quebra simples, espaço maior (do tipo que os designers deixam entre parágrafos) torna-se uma linha em branco. Os casos comuns saem certos: corpo de texto, títulos, listas. Quando o designer usou espaços invulgares para outra coisa, a ferramenta não adivinha e esses pontos podem precisar de pequena revisão.

As páginas ficam separadas por uma linha em branco na saída. Se prefere não ter separadores de página, um localizar-e-substituir da quebra dupla por uma simples remove-os.

O que não sobrevive à extracção

  • Negrito, itálico, tipos de letra, cor, alinhamento. Texto simples é plano. Se precisa preservar a formatação, veja pdf-to-word.
  • Tabelas. As células passam a texto simples por ordem de leitura — habitualmente linha a linha, muitas vezes com espaçamentos desajeitados. As tabelas que têm de continuar a ser tabelas pertencem a pdf-to-excel.
  • Imagens e diagramas. O que no PDF não era texto não aparece no texto. Para extrair as imagens à parte, veja pdf-to-jpg.
  • Cabeçalhos e rodapés. Se o original repetia «Confidencial — página X de Y» em cada página, o texto extraído fará o mesmo. Um localizar-e-substituir tira-os em segundos.
  • Palavras quebradas com hífen no fim de linha. Uma palavra rompida por hífen sai como algu-\nma em vez de alguma. Se importa para a pesquisa ou correcção ortográfica posterior, uma regex -\n → vazio resolve.
  • Paginações em várias colunas podem entrelaçar-se. Um artigo científico a duas colunas pode sair com frases da coluna esquerda e direita alternadas. Documentos numa só coluna — a maioria dos relatórios, contratos, livros — não são afectados. Quando um resultado entrelaçado é inutilizável, é mais limpo abrir o PDF numa ferramenta que respeite a ordem das colunas antes de voltar a extrair.

Algumas notas práticas

  1. Se o PDF estiver protegido por palavra-passe, passe-o primeiro por unlock-pdf. PDF cifrados não podem ser abertos para extracção de texto.
  2. Para PDF muito grandes (centenas de MB, milhares de páginas) a extracção corre na mesma no browser. No computador raramente é problema; num telemóvel com uma digitalização de 500 páginas, o tecto é a memória do browser. Nesse caso, no computador.
  3. A saída é UTF-8. Cirílico, grego, árabe, chinês, latim com diacríticos passam limpos quando o PDF os guardou como texto verdadeiro. PDF que desenhavam caracteres não latinos como glifos de subconjunto embebidos sem codificação correcta produzem lixo na extracção — é problema do PDF, não do extractor. Resolve-se na origem: reexportar com codificação Unicode correcta.
  4. Padrão do nome. Um ficheiro contract.pdf é descarregado como contract.txt. O PDF no disco fica onde estava.

O que acontece ao seu ficheiro

A extracção corre no seu browser. Abra as DevTools e observe o separador Network durante a operação — sem pedidos a sair com conteúdo do ficheiro. O PDF fica no disco; o .txt é um descarregamento novo ao lado.

FAQ

Perguntas frequentes

Como funciona a extração?

Usamos o pdf.js da Mozilla para ler a camada de texto incorporada do seu PDF página a página. Os elementos são agrupados pela coordenada Y para que as quebras de parágrafo se mantenham — sem servidor, sem upload.

Funciona em PDFs digitalizados?

Não. As digitalizações são imagens de texto, não texto — extraí-las requer OCR, que esta ferramenta não executa. Se o seu PDF veio de papel digitalizado, precisa primeiro de uma ferramenta de OCR.

O meu ficheiro é enviado para algum lado?

Nunca. A extração corre inteiramente no seu navegador via WebAssembly — verificável em DevTools → Network. O ficheiro permanece no seu dispositivo.

E PDFs protegidos por palavra-passe?

Desbloqueie o PDF primeiro com a nossa ferramenta Desbloquear PDF e depois extraia. Streams de conteúdo encriptados não podem ser lidos sem a palavra-passe.

Qual é o limite de tamanho?

Até 100 MB. Acima disso pode esgotar a memória do navegador — divida primeiro com a ferramenta Dividir PDF.