PDF in Excel
Online
Estrai tabelle dai PDF in cartelle di lavoro Excel modificabili. Rilevamento e parsing avvengono interamente nel tuo browser.
Verifica tu stesso: apri DevTools → scheda Network → trascina un file. Osserva zero upload.
Tre passaggi. Zero caricamenti.
Trascina il PDF
Si carica nella memoria del browser.
Rileva le tabelle
Troviamo i confini delle tabelle e analizziamo le celle lato client.
Scarica il XLSX
Apri in Excel, Numbers o Google Sheets.
Quando la tabella è in un PDF e deve tornare a essere una tabella
Le occasioni nascono di solito dietro la scelta di formato di qualcun altro. La banca manda l'estratto in PDF e tu vuoi buttare le transazioni in un foglio di calcolo per sommare una categoria. Il listino del fornitore è in PDF e vuoi confrontarlo con il trimestre scorso. Un ente pubblica le sue tabelle solo come PDF e ti servono come celle per ordinare e filtrare. Un report estratto via scraping è in PDF e vuoi ogni riga come riga. In tutti questi casi i numeri ci sono; semplicemente non si comportano come numeri perché sono incastrati in un'impaginazione.
Il lavoro qui è recuperare righe e colonne: prendere il PDF, restituire un .xlsx in cui ogni pagina è un foglio a sé, ogni riga è una riga, ogni colonna è una colonna. Da lì puoi ordinare, filtrare, sommare, fare tabelle pivot — ciò per cui i fogli di calcolo esistono.
Perché è una stima — e abbastanza buona
I PDF non memorizzano tabelle. Dentro, la pagina è un flusso piatto di frammenti di testo con coordinate x/y sulla tela. Da nessuna parte c'è scritto «questa è una riga» o «la colonna inizia qui» — quelle strutture esistono solo nel tuo occhio mentre leggi. Recuperarle significa dedurre la griglia da dove il testo effettivamente sta.
Lo strumento lo fa in più passi. Prima raggruppa i frammenti in righe per y: se due frammenti sono verticalmente entro circa metà altezza di riga, appartengono alla stessa riga. Poi, dentro la riga, frammenti vicini in orizzontale si fondono in una sola cella (interlettera tipica) e gli stacchi più larghi diventano confini di cella (i corridoi tra colonne). Infine guarda dove le celle iniziano lungo l'intera pagina, trova le posizioni x dominanti e le tratta come centri di colonna — ogni cella va a quella più vicina. Esce la griglia rettangolare che il foglio di calcolo si aspetta.
Cosa l'algoritmo fa bene
- Tabelle finanziarie classiche — estratti, fatture, listini, rendiconti spese. Una riga per record, corridoi netti tra colonne, numeri allineati a destra: esattamente il caso su cui l'euristica è stata calibrata, di solito viene pulito.
- Voci a riga singola. Quando ogni record sta in una riga, il rilevamento delle righe è affidabile.
- Tabelle a tutta larghezza pagina. Il rilevamento di colonne lavora meglio quando le colonne sono ben distanziate e costanti sulla pagina.
- Allineamenti a destra e a sinistra. Lo strumento gestisce entrambi — conta uno stacco riconoscibile tra colonne.
Dove fa fatica
- Celle che vanno a capo. Una cella il cui valore passa a una seconda riga — descrizione lunga di un prodotto, indirizzo multiriga — di solito si spacca in due righe. Si sistema con un ritocco a mano nel foglio (o meglio pdf-to-txt e ricostruire la tabella a mano se il ritocco non vale la candela).
- Celle unite. Un'intestazione che visivamente copre due colonne compare solo in una — la più vicina. Vedrai l'unione come un valore nella colonna A e una B vuota.
- Due tabelle affiancate. Il rilevatore di colonne le vede in blocco e può schiacciarle in una sola tabella larga. Spezzare il PDF a metà prima aiuta.
- Testo corrente nella stessa pagina della tabella. Un paragrafo sopra la tabella aggiunge proprie «righe» di testo — un paio di righe che in realtà non lo sono, facili da cancellare.
- Tabelle su più pagine. Ogni pagina diventa un foglio a parte. Per ricucirle in una tabella continua, copia e incolla i blocchi dati dopo l'estrazione.
- PDF scansionati. Stessa avvertenza di qualunque estrazione di testo: se la pagina è un'immagine (estratto scansionato, scontrino fotografato), non c'è nulla da leggere. Prima OCR in un altro strumento.
Cosa ottieni alla fine
Un file .xlsx. Ogni pagina del PDF diventa un foglio a sé, con nome Page 1, Page 2, ecc. Si apre in Excel, Numbers, Google Sheets, LibreOffice — uno qualsiasi. Le celle sono valori semplici; niente formattazioni, formule, stili. Il senso è che i numeri ora sono numeri e le colonne sono colonne.
Se preferisci CSV invece di xlsx, salva il foglio come CSV dalla tua app — è a un menu di distanza.
Note pratiche
- Se il PDF è protetto da password, prima passalo per unlock-pdf. I PDF cifrati non si possono aprire per l'estrazione di celle.
- Per tabelle molto larghe aiuta ruotare il PDF sorgente in orizzontale prima dell'estrazione — meno colonne, stacchi più puliti. La rotazione si fa in edit-pdf.
- Se ti serve solo il testo senza struttura, pdf-to-txt è più rapido e il risultato si ricompone più facilmente.
- L'operazione opposta — mettere un foglio Excel in un PDF — è excel-to-pdf.
Cosa succede al tuo file
L'estrazione gira nel tuo browser. Apri i DevTools e guarda la scheda Network durante l'operazione — nessuna richiesta in uscita con il contenuto del file. Il PDF resta sul disco; il .xlsx è un nuovo download accanto.
Domande frequenti
Il mio PDF viene caricato?
No. Rilevamento e parsing avvengono interamente nel tuo browser. Il file non lascia il dispositivo.
Funziona con PDF scansionati (OCR)?
Le tabelle scansionate richiedono OCR per diventare celle modificabili. I PDF basati su testo (con testo selezionabile) si estraggono direttamente.
Quanto è accurato il rilevamento?
Tabelle con linee e griglie ben spaziate si estraggono pulite. Celle unite e tabelle senza bordi possono richiedere revisione manuale.
Posso scegliere pagine specifiche?
Sì. Seleziona un intervallo per estrarre tabelle solo dalle pagine che ti servono.