PDF para Excel

Converter PDF em
Excel

Extraia tabelas de PDFs para pastas Excel editáveis. A detecção e o parsing acontecem totalmente no seu navegador.

Solte seu PDF
Detectamos as tabelas e exportamos como XLSX limpo.

Verifique você mesmo: abra o DevTools → aba Network → solte um arquivo. Veja zero uploads acontecerem.

Tabelas detectadas Funciona offline após o primeiro carregamento
Grátis
Sem cadastro
Sem upload
Tabelas preservadas
COMO FUNCIONA

Três passos. Zero envios.

1

Solte o PDF

Carrega na memória do navegador.

2

Detecte tabelas

Encontramos os limites das tabelas e parseamos as células no cliente.

3

Baixe o XLSX

Abra no Excel, Numbers ou Google Sheets.

Quando a tabela está num PDF e precisa virar tabela

As situações geralmente surgem por causa da escolha de formato de outra pessoa. O banco manda o extrato em PDF e você quer despejar as transações numa planilha pra somar uma categoria. A lista de preços do fornecedor veio em PDF e você quer comparar com o trimestre passado. O regulador publica as tabelas de dados só em PDF e você precisa delas como células pra ordenar e filtrar. Um relatório obtido por scraping está em PDF e você quer cada linha como linha. Em todos esses casos os números estão lá; só não se comportam como números porque ficaram presos numa diagramação.

O trabalho aqui é recuperar linhas e colunas: pegar o PDF, devolver um .xlsx em que cada página é uma planilha própria, cada linha é uma linha e cada coluna é uma coluna. Daí dá pra ordenar, filtrar, somar, fazer tabela dinâmica — pra isso que planilha existe.

Por que isso é um chute — e até bom

O PDF não guarda tabelas. Por dentro, a página é um fluxo plano de fragmentos de texto com posições x/y na tela. Em lugar nenhum diz «isto é uma linha» nem «aqui começa uma coluna» — essas estruturas só existem no seu olho quando você lê. Recuperá-las significa deduzir a grade a partir de onde o texto está plantado.

A ferramenta faz isso em algumas etapas. Primeiro agrupa os fragmentos em linhas pelo y: se dois fragmentos estão verticalmente a mais ou menos meia altura de linha, eles pertencem à mesma linha. Depois, dentro de uma linha, fragmentos próximos no horizontal se fundem em uma só célula (espaçamento de letras comum) e gaps maiores viram limites de célula (canaletas entre colunas). No fim, ela olha onde as células começam pela página inteira, encontra as posições x dominantes e trata como centros de coluna — cada célula vai pra mais próxima. Sai a grade retangular que a planilha pede.

Onde o algoritmo acerta

  • Tabelas financeiras clássicas — extratos, faturas, listas de preço, relatórios de despesa. Uma linha por registro, canaletas claras entre colunas, números alinhados à direita: exatamente o caso pro qual a heurística foi calibrada, geralmente sai limpinho.
  • Entradas de linha única. Quando cada registro cabe numa linha, a detecção de linhas é confiável.
  • Tabelas que ocupam toda a largura da página. A detecção de colunas funciona melhor quando as colunas estão bem espaçadas e constantes pela página.
  • Alinhamentos à direita e à esquerda. A ferramenta lida com os dois — o que conta é uma canaleta perceptível entre colunas.

Onde ela tem dificuldade

  • Células com quebra. Uma célula cujo valor vai pra segunda linha — descrição longa de produto, endereço de várias linhas — geralmente quebra em duas linhas. Conserta com um ajuste manual leve na planilha (ou prefere pdf-to-txt e remontar a tabela à mão, se o ajuste não compensar).
  • Células mescladas. Um cabeçalho que visualmente cobre duas colunas aparece só numa — a mais próxima. A mesclagem você vê como valor na coluna A e B vazio.
  • Duas tabelas lado a lado. O detector de colunas vê as duas juntas e pode esmagar tudo em uma tabela larga. Cortar o PDF ao meio antes ajuda.
  • Texto corrido na mesma página da tabela. Um parágrafo acima da tabela contribui com suas próprias «linhas» de texto — umas linhas que não são linhas de fato, fáceis de apagar.
  • Tabelas em várias páginas. Cada página vira uma planilha separada. Pra costurar numa tabela contínua, copia e cola as seções de dados depois da extração.
  • PDFs escaneados. Mesma ressalva de qualquer extração de texto: se a página é imagem (extrato escaneado, recibo fotografado), não tem o que ler. Antes, OCR em outra ferramenta.

O que você recebe no fim

Um arquivo .xlsx. Cada página do PDF vira uma planilha própria com nome Page 1, Page 2 etc. Abre no Excel, Numbers, Google Sheets, LibreOffice — em qualquer um. As células são valores simples; sem formatação, fórmulas, estilos. O sentido é: os números agora são números, as colunas agora são colunas.

Se prefere CSV em vez de xlsx, salva a planilha como CSV pelo seu app — fica a um menu.

Notas práticas

  1. Se o PDF tem senha, passa antes pelo unlock-pdf. PDFs criptografados não podem ser abertos pra extração de células.
  2. Pra tabelas muito largas ajuda girar o PDF de origem pra paisagem antes de extrair — menos colunas, canaletas mais limpas. O giro é feito no edit-pdf.
  3. Se você só precisa do texto sem estrutura, pdf-to-txt é mais rápido e o resultado é mais fácil de remontar.
  4. A operação inversa — colocar uma planilha do Excel num PDF — é excel-to-pdf.

O que acontece com seu arquivo

A extração roda no seu navegador. Abre o DevTools e observa a aba Network durante a operação — nenhuma requisição saindo com o conteúdo do arquivo. O PDF fica no disco; o .xlsx é um download novo do lado.

FAQ

Perguntas frequentes

Meu PDF é enviado?

Não. A detecção e o parsing acontecem totalmente no seu navegador. O arquivo nunca sai do dispositivo.

Funciona com PDFs digitalizados (OCR)?

Tabelas digitalizadas precisam de OCR para virar células editáveis. PDFs baseados em texto (com texto selecionável) extraem direto.

Qual a precisão da detecção de tabelas?

Tabelas com linhas e grades bem espaçadas saem limpas. Células mescladas e tabelas sem borda podem pedir revisão manual.

Dá para escolher páginas específicas?

Sim. Selecione um intervalo de páginas para extrair tabelas apenas do que você precisa.