PDF para Texto

Extraia texto de qualquer PDF,
no seu navegador.

Obtenha uma camada de texto limpa de qualquer PDF — parágrafos preservados, múltiplas páginas, UTF-8. A extração roda dentro do seu navegador, então o arquivo nunca sai do seu dispositivo.

Solte o PDF do qual deseja extrair o texto
Lemos a camada de texto incorporada com pdf.js — sem OCR, sem servidor.

Verifique você mesmo: abra o DevTools → aba Network → solte um arquivo. Veja zero uploads acontecerem.

Múltiplas páginas · Saída UTF-8 PDFs digitalizados precisam de OCR — esta ferramenta lê apenas a camada de texto
Grátis
Sem cadastro
Sem upload
Saída UTF-8
COMO FUNCIONA

Três passos. Seu PDF nunca sai desta aba.

1

Solte seu PDF

Escolha o arquivo do qual quer extrair texto. Ele é carregado na memória do navegador, não em um servidor.

2

Lemos a camada de texto

O pdf.js percorre cada página, ordena os itens pela coordenada Y e reconstrói as quebras de parágrafo onde devem ficar.

3

Copie ou baixe .txt

Receba texto puro UTF-8 limpo. Copie para a área de transferência ou salve como .txt — você decide.

Quando você quer o texto e não o PDF

Os motivos para extrair texto de um PDF quase sempre giram em torno da mesma coisa: levar as palavras pra onde o PDF não entra. Você quer colar uma citação num e-mail sem arrastar o PDF como anexo. Tá alimentando um documento longo num assistente de IA que só aceita texto puro. Quer dar grep num relatório de 200 páginas atrás de uma frase, e a busca do leitor tá escondendo algo. Tá traduzindo um contrato e a ferramenta de tradução quer a fonte como arquivo plano. Tá puxando um manuscrito já diagramado de um PDF de volta pra um editor de texto. Em todos esses casos quem atrapalha é o invólucro — as palavras estão certas, só estão presas numa diagramação difícil de remontar.

A saída aqui é exatamente isso: texto puro, um único .txt grande, na mesma ordem em que o PDF é lido. Sem formatação, sem fontes, sem imagens, sem tabelas-como-tabelas. O trabalho é libertar as palavras.

O que «extração» realmente faz

O PDF guarda dois tipos de «texto». O texto de verdade — caracteres desenhados com fontes que o PDF marca como letras — vive numa camada de texto. Essa camada a ferramenta lê direto. O outro tipo é texto que existe só como pixel: tudo escaneado, fotografado ou tirado em print antes de ir pro PDF. Esses caracteres são imagens de letras, não letras, e nenhum extrator vê eles como texto sem OCR. Aqui não tem passo de OCR.

Duas verificações rápidas dizem qual PDF você tem. Abre ele em qualquer leitor, clica e arrasta por um parágrafo: se o texto se seleciona limpinho, tem camada de texto e a extração vai rodar. Se o cursor desenha um retângulo e nada se seleciona, a página é uma imagem e antes precisa passar por OCR (em outra ferramenta) pro extrator ter algo pra ler.

Como saem quebras de linha e parágrafos

O PDF não guarda parágrafos. Por dentro, a página é um saco de fragmentos de texto com posições — nenhum metadado dizendo «aqui acaba o parágrafo». Texto puro legível sem quebras não existe, então a ferramenta deduz a partir dos espaços verticais: espaço pequeno entre linhas vira uma quebra simples, espaço maior (o que os designers deixam entre parágrafos) vira uma linha em branco. Os casos comuns saem certos: corpo, títulos, listas. Quando o designer usou espaços incomuns pra outra coisa, a ferramenta não adivinha e esses pontos podem pedir um ajuste leve.

As páginas ficam separadas por uma linha em branco na saída. Se você prefere sem separadores de página, um localizar-e-substituir da quebra dupla por uma simples tira eles.

O que não sobrevive à extração

  • Negrito, itálico, fontes, cor, alinhamento. Texto puro é plano. Se precisa preservar formatação, veja pdf-to-word.
  • Tabelas. As células viram texto puro na ordem de leitura — geralmente linha a linha, muitas vezes com espaçamentos esquisitos. Tabelas que precisam continuar tabelas pertencem ao pdf-to-excel.
  • Imagens e diagramas. O que no PDF não era texto não aparece no texto. Pra extrair imagens separadas, veja pdf-to-jpg.
  • Cabeçalhos e rodapés. Se o original repetia «Confidencial — página X de Y» em cada página, o texto extraído faz igual. Um localizar-e-substituir tira em segundos.
  • Palavras quebradas com hífen no fim de linha. Uma palavra cortada por hífen sai como algu-\nma em vez de alguma. Se importa pra busca ou corretor depois, uma regex -\n → vazio conserta.
  • Layouts em várias colunas podem se entrelaçar. Um artigo científico em duas colunas pode sair com frases alternando entre coluna esquerda e direita. Documentos em coluna única — maioria de relatórios, contratos, livros — não são afetados. Quando o resultado entrelaçado fica inutilizável, o jeito mais limpo é abrir o PDF numa ferramenta que respeita a ordem das colunas antes de extrair de novo.

Algumas notas práticas

  1. Se o PDF tem senha, passa antes pelo unlock-pdf. PDFs criptografados não podem ser abertos pra extração de texto.
  2. Pra PDFs muito grandes (centenas de MB, milhares de páginas) a extração roda no navegador do mesmo jeito. No desktop raramente é problema; no celular com um escaneamento de 500 páginas o teto é a memória do navegador. Nesse caso, vai pro desktop.
  3. A saída é UTF-8. Cirílico, grego, árabe, chinês, latim com acentos passam limpos se o PDF guardou como texto de verdade. PDFs que desenhavam caracteres não-latinos como glifos de subset embedados sem codificação certa produzem lixo na extração — é problema do PDF, não do extrator. Conserta na origem: reexportar com codificação Unicode certa.
  4. Padrão do nome. Um arquivo contract.pdf baixa como contract.txt. O PDF no disco fica onde tava.

O que acontece com seu arquivo

A extração roda no seu navegador. Abre o DevTools e observa a aba Network durante a operação — nenhuma requisição saindo com o conteúdo do arquivo. O PDF fica no disco; o .txt é um download novo do lado.

FAQ

Perguntas frequentes

Como funciona a extração?

Usamos o pdf.js da Mozilla para ler a camada de texto incorporada do seu PDF, página por página. Os itens são agrupados pela coordenada Y para que as quebras de parágrafo sejam preservadas — sem servidor, sem upload.

Funciona em PDFs digitalizados?

Não. Digitalizações são imagens de texto, não texto — extraí-las exige OCR, que esta ferramenta não executa. Se seu PDF veio de papel digitalizado, você precisará primeiro de uma ferramenta de OCR.

Meu arquivo é enviado para algum lugar?

Nunca. A extração roda inteiramente no seu navegador via WebAssembly — verificável em DevTools → Network. O arquivo permanece no seu dispositivo.

E PDFs protegidos por senha?

Desbloqueie o PDF primeiro com nossa ferramenta Desbloquear PDF, depois extraia. Fluxos de conteúdo criptografados não podem ser lidos sem a senha.

Qual é o limite de tamanho?

Até 100 MB. Acima disso pode esgotar a memória do navegador — tente dividir o PDF antes com a ferramenta Dividir PDF.