PDF in Excel

PDF in Excel
Online

Estrai tabelle dai PDF in cartelle di lavoro Excel modificabili. Rilevamento e parsing avvengono interamente nel tuo browser.

Trascina il tuo PDF
Rileviamo le tabelle e le esportiamo come un XLSX pulito.

Verifica tu stesso: apri DevTools → scheda Network → trascina un file. Osserva zero upload.

Tabelle rilevate Funziona offline dopo il primo caricamento
Gratis
Senza registrazione
Senza upload
Tabelle preservate
COME FUNZIONA

Tre passaggi. Zero caricamenti.

1

Trascina il PDF

Si carica nella memoria del browser.

2

Rileva le tabelle

Troviamo i confini delle tabelle e analizziamo le celle lato client.

3

Scarica il XLSX

Apri in Excel, Numbers o Google Sheets.

Quando la tabella è in un PDF e deve tornare a essere una tabella

Le occasioni nascono di solito dietro la scelta di formato di qualcun altro. La banca manda l'estratto in PDF e tu vuoi buttare le transazioni in un foglio di calcolo per sommare una categoria. Il listino del fornitore è in PDF e vuoi confrontarlo con il trimestre scorso. Un ente pubblica le sue tabelle solo come PDF e ti servono come celle per ordinare e filtrare. Un report estratto via scraping è in PDF e vuoi ogni riga come riga. In tutti questi casi i numeri ci sono; semplicemente non si comportano come numeri perché sono incastrati in un'impaginazione.

Il lavoro qui è recuperare righe e colonne: prendere il PDF, restituire un .xlsx in cui ogni pagina è un foglio a sé, ogni riga è una riga, ogni colonna è una colonna. Da lì puoi ordinare, filtrare, sommare, fare tabelle pivot — ciò per cui i fogli di calcolo esistono.

Perché è una stima — e abbastanza buona

I PDF non memorizzano tabelle. Dentro, la pagina è un flusso piatto di frammenti di testo con coordinate x/y sulla tela. Da nessuna parte c'è scritto «questa è una riga» o «la colonna inizia qui» — quelle strutture esistono solo nel tuo occhio mentre leggi. Recuperarle significa dedurre la griglia da dove il testo effettivamente sta.

Lo strumento lo fa in più passi. Prima raggruppa i frammenti in righe per y: se due frammenti sono verticalmente entro circa metà altezza di riga, appartengono alla stessa riga. Poi, dentro la riga, frammenti vicini in orizzontale si fondono in una sola cella (interlettera tipica) e gli stacchi più larghi diventano confini di cella (i corridoi tra colonne). Infine guarda dove le celle iniziano lungo l'intera pagina, trova le posizioni x dominanti e le tratta come centri di colonna — ogni cella va a quella più vicina. Esce la griglia rettangolare che il foglio di calcolo si aspetta.

Cosa l'algoritmo fa bene

  • Tabelle finanziarie classiche — estratti, fatture, listini, rendiconti spese. Una riga per record, corridoi netti tra colonne, numeri allineati a destra: esattamente il caso su cui l'euristica è stata calibrata, di solito viene pulito.
  • Voci a riga singola. Quando ogni record sta in una riga, il rilevamento delle righe è affidabile.
  • Tabelle a tutta larghezza pagina. Il rilevamento di colonne lavora meglio quando le colonne sono ben distanziate e costanti sulla pagina.
  • Allineamenti a destra e a sinistra. Lo strumento gestisce entrambi — conta uno stacco riconoscibile tra colonne.

Dove fa fatica

  • Celle che vanno a capo. Una cella il cui valore passa a una seconda riga — descrizione lunga di un prodotto, indirizzo multiriga — di solito si spacca in due righe. Si sistema con un ritocco a mano nel foglio (o meglio pdf-to-txt e ricostruire la tabella a mano se il ritocco non vale la candela).
  • Celle unite. Un'intestazione che visivamente copre due colonne compare solo in una — la più vicina. Vedrai l'unione come un valore nella colonna A e una B vuota.
  • Due tabelle affiancate. Il rilevatore di colonne le vede in blocco e può schiacciarle in una sola tabella larga. Spezzare il PDF a metà prima aiuta.
  • Testo corrente nella stessa pagina della tabella. Un paragrafo sopra la tabella aggiunge proprie «righe» di testo — un paio di righe che in realtà non lo sono, facili da cancellare.
  • Tabelle su più pagine. Ogni pagina diventa un foglio a parte. Per ricucirle in una tabella continua, copia e incolla i blocchi dati dopo l'estrazione.
  • PDF scansionati. Stessa avvertenza di qualunque estrazione di testo: se la pagina è un'immagine (estratto scansionato, scontrino fotografato), non c'è nulla da leggere. Prima OCR in un altro strumento.

Cosa ottieni alla fine

Un file .xlsx. Ogni pagina del PDF diventa un foglio a sé, con nome Page 1, Page 2, ecc. Si apre in Excel, Numbers, Google Sheets, LibreOffice — uno qualsiasi. Le celle sono valori semplici; niente formattazioni, formule, stili. Il senso è che i numeri ora sono numeri e le colonne sono colonne.

Se preferisci CSV invece di xlsx, salva il foglio come CSV dalla tua app — è a un menu di distanza.

Note pratiche

  1. Se il PDF è protetto da password, prima passalo per unlock-pdf. I PDF cifrati non si possono aprire per l'estrazione di celle.
  2. Per tabelle molto larghe aiuta ruotare il PDF sorgente in orizzontale prima dell'estrazione — meno colonne, stacchi più puliti. La rotazione si fa in edit-pdf.
  3. Se ti serve solo il testo senza struttura, pdf-to-txt è più rapido e il risultato si ricompone più facilmente.
  4. L'operazione opposta — mettere un foglio Excel in un PDF — è excel-to-pdf.

Cosa succede al tuo file

L'estrazione gira nel tuo browser. Apri i DevTools e guarda la scheda Network durante l'operazione — nessuna richiesta in uscita con il contenuto del file. Il PDF resta sul disco; il .xlsx è un nuovo download accanto.

FAQ

Domande frequenti

Il mio PDF viene caricato?

No. Rilevamento e parsing avvengono interamente nel tuo browser. Il file non lascia il dispositivo.

Funziona con PDF scansionati (OCR)?

Le tabelle scansionate richiedono OCR per diventare celle modificabili. I PDF basati su testo (con testo selezionabile) si estraggono direttamente.

Quanto è accurato il rilevamento?

Tabelle con linee e griglie ben spaziate si estraggono pulite. Celle unite e tabelle senza bordi possono richiedere revisione manuale.

Posso scegliere pagine specifiche?

Sì. Seleziona un intervallo per estrarre tabelle solo dalle pagine che ti servono.