Conversor PDF→Excel

Conversor PDF para
Excel

Extraia tabelas de PDFs para livros Excel editáveis. Deteção e análise acontecem inteiramente no seu navegador.

Largue o seu PDF

Detetamos as tabelas e exportamo-las como um XLSX limpo.

Verifique você mesmo: abra o DevTools → separador Network → solte um ficheiro. Veja zero envios a acontecer.

Tabelas detetadas Funciona offline após o primeiro carregamento

Grátis

Sem registo

Sem upload

Tabelas preservadas

Saída

XLSX

A extrair localmente…

invoice.pdf Concluído

Selo de privacidade

Toda a ferramenta

0 BYTES TRANSMITIDOS

COMO FUNCIONA

Três passos. Zero envios.

Largue o PDF

Carregue na memória do navegador.

Detetar tabelas

Encontramos os limites das tabelas e analisamos as células no cliente.

Descarregue o XLSX

Abra no Excel, Numbers ou Google Sheets.

Quando a tabela está num PDF e tem de voltar a ser tabela

As situações surgem geralmente atrás da escolha de formato de outra pessoa. O banco envia o extracto em PDF e quer despejar as transacções numa folha de cálculo para somar uma categoria. A lista de preços do fornecedor chegou em PDF e quer compará-la com o trimestre passado. Um regulador publica as tabelas de dados apenas em PDF e precisa delas como células para ordenar e filtrar. Um relatório obtido por scraping está em PDF e quer cada linha como linha. Em todos estes casos os números existem; só não se comportam como números porque ficam presos numa paginação.

O trabalho aqui é recuperar linhas e colunas: pegar no PDF, devolver um .xlsx em que cada página é a sua própria folha, cada linha é uma linha e cada coluna é uma coluna. A partir daí pode ordenar, filtrar, somar, fazer tabelas dinâmicas — para o que servem as folhas de cálculo.

Porque isto é uma estimativa — e bastante boa

Os PDF não armazenam tabelas. Por dentro, uma página é um fluxo plano de fragmentos de texto com posições x/y na tela. Em lado nenhum diz «isto é uma linha» nem «aqui começa uma coluna» — essas estruturas só existem no seu olho quando lê. Recuperá-las significa deduzir a grelha a partir de onde o texto está colocado.

A ferramenta fá-lo em vários passos. Primeiro agrupa os fragmentos em linhas pelo y: se dois fragmentos estiverem verticalmente a cerca de meia altura de linha um do outro, pertencem à mesma linha. Depois, dentro de uma linha, fragmentos próximos na horizontal fundem-se numa única célula (espaçamento entre letras normal) e os intervalos maiores tornam-se fronteiras de célula (corredores entre colunas). Por fim, observa onde as células começam ao longo de toda a página, encontra as posições x dominantes e trata-as como centros de coluna — cada célula vai para a mais próxima. Sai a grelha rectangular que a folha de cálculo pede.

O que o algoritmo apanha bem

Tabelas financeiras clássicas — extractos, facturas, listas de preços, mapas de despesas. Uma linha por registo, corredores nítidos entre colunas, números alinhados à direita: exactamente o caso para que a heurística foi afinada, e em geral sai limpo.
Entradas de uma só linha. Quando cada registo cabe numa linha, a detecção de linhas é fiável.
Tabelas a toda a largura da página. A detecção de colunas funciona melhor quando as colunas estão bem espaçadas e mantêm-se iguais ao longo da página.
Alinhamentos à direita e à esquerda. A ferramenta trata ambos — o que importa é um corredor reconhecível entre colunas.

Onde tem dificuldade

Células com mudança de linha. Uma célula cujo valor passa para uma segunda linha — descrição longa de produto, morada multilinha — costuma partir-se em duas linhas. Resolve-se com pequena correcção manual na folha (ou antes pdf-to-txt e reconstruir a tabela à mão se a correcção não compensar).
Células fundidas. Um cabeçalho que cobre visualmente duas colunas aparece só numa — a mais próxima. A fusão verá como valor na coluna A e B vazio.
Duas tabelas lado a lado. O detector de colunas vê as duas em conjunto e pode achatá-las numa só tabela larga. Cortar o PDF ao meio antes ajuda.
Texto corrido na mesma página da tabela. Um parágrafo acima da tabela contribui com as suas próprias «linhas» de texto — algumas linhas que não são linhas de facto, fáceis de apagar.
Tabelas de várias páginas. Cada página torna-se uma folha à parte. Para coser numa tabela contínua, copie e cole as secções de dados depois da extracção.
PDF digitalizados. A mesma ressalva de qualquer extracção de texto: se a página for imagem (extracto digitalizado, talão fotografado), não há o que ler. Primeiro OCR noutra ferramenta.

O que recebe no fim

Um ficheiro .xlsx. Cada página do PDF passa a folha própria com nome Page 1, Page 2, etc. Abre em Excel, Numbers, Google Sheets, LibreOffice — em qualquer um. As células são valores simples; sem formatação, fórmulas, estilos. O sentido é que os números agora são números e as colunas são colunas.

Se prefere CSV em vez de xlsx, guarde a folha como CSV a partir da sua aplicação — está a um menu.

Notas práticas

Se o PDF tiver palavra-passe, passe-o primeiro por unlock-pdf. PDF cifrados não podem ser abertos para extracção de células.
Para tabelas muito largas ajuda rodar o PDF de origem para horizontal antes de extrair — menos colunas, corredores mais limpos. A rotação faz-se em edit-pdf.
Se só precisa do texto sem estrutura, pdf-to-txt é mais rápido e o resultado é mais fácil de remoldar.
A operação inversa — pôr uma folha de Excel num PDF — é excel-to-pdf.

O que acontece ao seu ficheiro

A extracção corre no seu browser. Abra as DevTools e observe o separador Network durante a operação — sem pedidos a sair com conteúdo do ficheiro. O PDF fica no disco; o .xlsx é um descarregamento novo ao lado.

FAQ

Perguntas frequentes

O meu PDF é enviado?

Não. Deteção e análise acontecem inteiramente no seu navegador. O ficheiro não sai do dispositivo.

Funciona em PDFs digitalizados (OCR)?

Tabelas digitalizadas precisam de OCR para se tornarem células editáveis. PDFs textuais (com texto selecionável) são extraídos diretamente.

Qual é a precisão da deteção?

Tabelas com linhas e grelhas bem espaçadas saem limpas. Células mescladas e tabelas sem borda podem precisar de revisão manual.

Posso escolher páginas?

Sim. Defina um intervalo para extrair tabelas apenas das páginas desejadas.

Conversor PDF para Excel