Converter PDF em
Excel
Extraia tabelas de PDFs para pastas Excel editáveis. A detecção e o parsing acontecem totalmente no seu navegador.
Verifique você mesmo: abra o DevTools → aba Network → solte um arquivo. Veja zero uploads acontecerem.
Três passos. Zero envios.
Solte o PDF
Carrega na memória do navegador.
Detecte tabelas
Encontramos os limites das tabelas e parseamos as células no cliente.
Baixe o XLSX
Abra no Excel, Numbers ou Google Sheets.
Quando a tabela está num PDF e precisa virar tabela
As situações geralmente surgem por causa da escolha de formato de outra pessoa. O banco manda o extrato em PDF e você quer despejar as transações numa planilha pra somar uma categoria. A lista de preços do fornecedor veio em PDF e você quer comparar com o trimestre passado. O regulador publica as tabelas de dados só em PDF e você precisa delas como células pra ordenar e filtrar. Um relatório obtido por scraping está em PDF e você quer cada linha como linha. Em todos esses casos os números estão lá; só não se comportam como números porque ficaram presos numa diagramação.
O trabalho aqui é recuperar linhas e colunas: pegar o PDF, devolver um .xlsx em que cada página é uma planilha própria, cada linha é uma linha e cada coluna é uma coluna. Daí dá pra ordenar, filtrar, somar, fazer tabela dinâmica — pra isso que planilha existe.
Por que isso é um chute — e até bom
O PDF não guarda tabelas. Por dentro, a página é um fluxo plano de fragmentos de texto com posições x/y na tela. Em lugar nenhum diz «isto é uma linha» nem «aqui começa uma coluna» — essas estruturas só existem no seu olho quando você lê. Recuperá-las significa deduzir a grade a partir de onde o texto está plantado.
A ferramenta faz isso em algumas etapas. Primeiro agrupa os fragmentos em linhas pelo y: se dois fragmentos estão verticalmente a mais ou menos meia altura de linha, eles pertencem à mesma linha. Depois, dentro de uma linha, fragmentos próximos no horizontal se fundem em uma só célula (espaçamento de letras comum) e gaps maiores viram limites de célula (canaletas entre colunas). No fim, ela olha onde as células começam pela página inteira, encontra as posições x dominantes e trata como centros de coluna — cada célula vai pra mais próxima. Sai a grade retangular que a planilha pede.
Onde o algoritmo acerta
- Tabelas financeiras clássicas — extratos, faturas, listas de preço, relatórios de despesa. Uma linha por registro, canaletas claras entre colunas, números alinhados à direita: exatamente o caso pro qual a heurística foi calibrada, geralmente sai limpinho.
- Entradas de linha única. Quando cada registro cabe numa linha, a detecção de linhas é confiável.
- Tabelas que ocupam toda a largura da página. A detecção de colunas funciona melhor quando as colunas estão bem espaçadas e constantes pela página.
- Alinhamentos à direita e à esquerda. A ferramenta lida com os dois — o que conta é uma canaleta perceptível entre colunas.
Onde ela tem dificuldade
- Células com quebra. Uma célula cujo valor vai pra segunda linha — descrição longa de produto, endereço de várias linhas — geralmente quebra em duas linhas. Conserta com um ajuste manual leve na planilha (ou prefere pdf-to-txt e remontar a tabela à mão, se o ajuste não compensar).
- Células mescladas. Um cabeçalho que visualmente cobre duas colunas aparece só numa — a mais próxima. A mesclagem você vê como valor na coluna A e B vazio.
- Duas tabelas lado a lado. O detector de colunas vê as duas juntas e pode esmagar tudo em uma tabela larga. Cortar o PDF ao meio antes ajuda.
- Texto corrido na mesma página da tabela. Um parágrafo acima da tabela contribui com suas próprias «linhas» de texto — umas linhas que não são linhas de fato, fáceis de apagar.
- Tabelas em várias páginas. Cada página vira uma planilha separada. Pra costurar numa tabela contínua, copia e cola as seções de dados depois da extração.
- PDFs escaneados. Mesma ressalva de qualquer extração de texto: se a página é imagem (extrato escaneado, recibo fotografado), não tem o que ler. Antes, OCR em outra ferramenta.
O que você recebe no fim
Um arquivo .xlsx. Cada página do PDF vira uma planilha própria com nome Page 1, Page 2 etc. Abre no Excel, Numbers, Google Sheets, LibreOffice — em qualquer um. As células são valores simples; sem formatação, fórmulas, estilos. O sentido é: os números agora são números, as colunas agora são colunas.
Se prefere CSV em vez de xlsx, salva a planilha como CSV pelo seu app — fica a um menu.
Notas práticas
- Se o PDF tem senha, passa antes pelo unlock-pdf. PDFs criptografados não podem ser abertos pra extração de células.
- Pra tabelas muito largas ajuda girar o PDF de origem pra paisagem antes de extrair — menos colunas, canaletas mais limpas. O giro é feito no edit-pdf.
- Se você só precisa do texto sem estrutura, pdf-to-txt é mais rápido e o resultado é mais fácil de remontar.
- A operação inversa — colocar uma planilha do Excel num PDF — é excel-to-pdf.
O que acontece com seu arquivo
A extração roda no seu navegador. Abre o DevTools e observa a aba Network durante a operação — nenhuma requisição saindo com o conteúdo do arquivo. O PDF fica no disco; o .xlsx é um download novo do lado.
Perguntas frequentes
Meu PDF é enviado?
Não. A detecção e o parsing acontecem totalmente no seu navegador. O arquivo nunca sai do dispositivo.
Funciona com PDFs digitalizados (OCR)?
Tabelas digitalizadas precisam de OCR para virar células editáveis. PDFs baseados em texto (com texto selecionável) extraem direto.
Qual a precisão da detecção de tabelas?
Tabelas com linhas e grades bem espaçadas saem limpas. Células mescladas e tabelas sem borda podem pedir revisão manual.
Dá para escolher páginas específicas?
Sim. Selecione um intervalo de páginas para extrair tabelas apenas do que você precisa.