Conversor PDF para
Excel
Extraia tabelas de PDFs para livros Excel editáveis. Deteção e análise acontecem inteiramente no seu navegador.
Verifique você mesmo: abra o DevTools → separador Network → solte um ficheiro. Veja zero envios a acontecer.
Três passos. Zero envios.
Largue o PDF
Carregue na memória do navegador.
Detetar tabelas
Encontramos os limites das tabelas e analisamos as células no cliente.
Descarregue o XLSX
Abra no Excel, Numbers ou Google Sheets.
Quando a tabela está num PDF e tem de voltar a ser tabela
As situações surgem geralmente atrás da escolha de formato de outra pessoa. O banco envia o extracto em PDF e quer despejar as transacções numa folha de cálculo para somar uma categoria. A lista de preços do fornecedor chegou em PDF e quer compará-la com o trimestre passado. Um regulador publica as tabelas de dados apenas em PDF e precisa delas como células para ordenar e filtrar. Um relatório obtido por scraping está em PDF e quer cada linha como linha. Em todos estes casos os números existem; só não se comportam como números porque ficam presos numa paginação.
O trabalho aqui é recuperar linhas e colunas: pegar no PDF, devolver um .xlsx em que cada página é a sua própria folha, cada linha é uma linha e cada coluna é uma coluna. A partir daí pode ordenar, filtrar, somar, fazer tabelas dinâmicas — para o que servem as folhas de cálculo.
Porque isto é uma estimativa — e bastante boa
Os PDF não armazenam tabelas. Por dentro, uma página é um fluxo plano de fragmentos de texto com posições x/y na tela. Em lado nenhum diz «isto é uma linha» nem «aqui começa uma coluna» — essas estruturas só existem no seu olho quando lê. Recuperá-las significa deduzir a grelha a partir de onde o texto está colocado.
A ferramenta fá-lo em vários passos. Primeiro agrupa os fragmentos em linhas pelo y: se dois fragmentos estiverem verticalmente a cerca de meia altura de linha um do outro, pertencem à mesma linha. Depois, dentro de uma linha, fragmentos próximos na horizontal fundem-se numa única célula (espaçamento entre letras normal) e os intervalos maiores tornam-se fronteiras de célula (corredores entre colunas). Por fim, observa onde as células começam ao longo de toda a página, encontra as posições x dominantes e trata-as como centros de coluna — cada célula vai para a mais próxima. Sai a grelha rectangular que a folha de cálculo pede.
O que o algoritmo apanha bem
- Tabelas financeiras clássicas — extractos, facturas, listas de preços, mapas de despesas. Uma linha por registo, corredores nítidos entre colunas, números alinhados à direita: exactamente o caso para que a heurística foi afinada, e em geral sai limpo.
- Entradas de uma só linha. Quando cada registo cabe numa linha, a detecção de linhas é fiável.
- Tabelas a toda a largura da página. A detecção de colunas funciona melhor quando as colunas estão bem espaçadas e mantêm-se iguais ao longo da página.
- Alinhamentos à direita e à esquerda. A ferramenta trata ambos — o que importa é um corredor reconhecível entre colunas.
Onde tem dificuldade
- Células com mudança de linha. Uma célula cujo valor passa para uma segunda linha — descrição longa de produto, morada multilinha — costuma partir-se em duas linhas. Resolve-se com pequena correcção manual na folha (ou antes pdf-to-txt e reconstruir a tabela à mão se a correcção não compensar).
- Células fundidas. Um cabeçalho que cobre visualmente duas colunas aparece só numa — a mais próxima. A fusão verá como valor na coluna A e B vazio.
- Duas tabelas lado a lado. O detector de colunas vê as duas em conjunto e pode achatá-las numa só tabela larga. Cortar o PDF ao meio antes ajuda.
- Texto corrido na mesma página da tabela. Um parágrafo acima da tabela contribui com as suas próprias «linhas» de texto — algumas linhas que não são linhas de facto, fáceis de apagar.
- Tabelas de várias páginas. Cada página torna-se uma folha à parte. Para coser numa tabela contínua, copie e cole as secções de dados depois da extracção.
- PDF digitalizados. A mesma ressalva de qualquer extracção de texto: se a página for imagem (extracto digitalizado, talão fotografado), não há o que ler. Primeiro OCR noutra ferramenta.
O que recebe no fim
Um ficheiro .xlsx. Cada página do PDF passa a folha própria com nome Page 1, Page 2, etc. Abre em Excel, Numbers, Google Sheets, LibreOffice — em qualquer um. As células são valores simples; sem formatação, fórmulas, estilos. O sentido é que os números agora são números e as colunas são colunas.
Se prefere CSV em vez de xlsx, guarde a folha como CSV a partir da sua aplicação — está a um menu.
Notas práticas
- Se o PDF tiver palavra-passe, passe-o primeiro por unlock-pdf. PDF cifrados não podem ser abertos para extracção de células.
- Para tabelas muito largas ajuda rodar o PDF de origem para horizontal antes de extrair — menos colunas, corredores mais limpos. A rotação faz-se em edit-pdf.
- Se só precisa do texto sem estrutura, pdf-to-txt é mais rápido e o resultado é mais fácil de remoldar.
- A operação inversa — pôr uma folha de Excel num PDF — é excel-to-pdf.
O que acontece ao seu ficheiro
A extracção corre no seu browser. Abra as DevTools e observe o separador Network durante a operação — sem pedidos a sair com conteúdo do ficheiro. O PDF fica no disco; o .xlsx é um descarregamento novo ao lado.
Perguntas frequentes
O meu PDF é enviado?
Não. Deteção e análise acontecem inteiramente no seu navegador. O ficheiro não sai do dispositivo.
Funciona em PDFs digitalizados (OCR)?
Tabelas digitalizadas precisam de OCR para se tornarem células editáveis. PDFs textuais (com texto selecionável) são extraídos diretamente.
Qual é a precisão da deteção?
Tabelas com linhas e grelhas bem espaçadas saem limpas. Células mescladas e tabelas sem borda podem precisar de revisão manual.
Posso escolher páginas?
Sim. Defina um intervalo para extrair tabelas apenas das páginas desejadas.