PDF in Testo

Estrai il testo da qualsiasi PDF,
nel tuo browser.

Recupera un livello di testo pulito da qualsiasi PDF — paragrafi preservati, multipagina, UTF-8. L'estrazione avviene dentro il tuo browser, quindi il file non lascia mai il dispositivo.

Trascina qui il PDF da cui vuoi estrarre il testo
Leggiamo il livello di testo incorporato con pdf.js — niente OCR, niente server.

Verifica tu stesso: apri DevTools → scheda Network → trascina un file. Osserva zero upload.

Multipagina · Output UTF-8 I PDF scansionati richiedono OCR — questo strumento legge solo il livello di testo
Gratis
Senza registrazione
Senza upload
Output UTF-8
COME FUNZIONA

Tre passaggi. Il tuo PDF non lascia mai questa scheda.

1

Trascina il tuo PDF

Scegli il file da cui estrarre il testo. Viene caricato nella memoria del browser, non su un server.

2

Leggiamo il livello di testo

pdf.js percorre ogni pagina, ordina gli elementi per coordinata Y e ricostruisce le interruzioni di paragrafo dove servono.

3

Copia o scarica .txt

Ottieni testo semplice UTF-8 pulito. Copialo negli appunti o salvalo come .txt — decidi tu.

Quando vuoi il testo, non il PDF

I motivi per estrarre il testo da un PDF girano quasi sempre intorno alla stessa cosa: portare le parole dove il PDF non entra. Vuoi incollare una citazione in una mail senza trascinarti il PDF come allegato. Stai dando un documento lungo a un assistente IA che accetta solo testo semplice. Vuoi greppare un report di 200 pagine cercando una frase e la ricerca del lettore te ne nasconde un pezzo. Stai traducendo un contratto e lo strumento di traduzione vuole la sorgente come file piatto. Stai riportando un manoscritto già impaginato da un PDF a un editor di testo. In tutti questi casi l'involucro è ciò che intralcia — le parole stanno bene, sono solo bloccate in un'impaginazione difficile da rimettere insieme.

L'output qui è esattamente questo: testo semplice, un grosso file .txt, nello stesso ordine in cui si legge il PDF. Niente formattazione, niente font, niente immagini, niente tabelle-come-tabelle. Il lavoro è liberare le parole.

Cosa fa davvero «estrarre»

Un PDF tiene due specie di «testo». Il testo vero — caratteri disegnati con i font che il PDF segna come lettere — sta in uno strato di testo. Quello strato lo strumento lo legge direttamente. L'altra specie è testo che esiste solo come pixel: tutto ciò che è stato scansionato, fotografato o catturato come immagine prima di finire nel PDF. Quei caratteri sono immagini di lettere, non lettere, e nessun estrattore li vede come testo senza OCR. Qui non c'è un passaggio OCR.

Due verifiche veloci dicono che PDF hai. Aprilo in un qualunque lettore, clicca e trascina su un paragrafo: se il testo si seleziona pulito, c'è uno strato di testo e l'estrazione funziona. Se il cursore disegna un rettangolo e nulla si seleziona, la pagina è un'immagine e va prima passata per un OCR (in un altro strumento) perché l'estrattore abbia qualcosa da leggere.

Come escono ritorni a capo e paragrafi

I PDF non memorizzano paragrafi. Dentro, una pagina è un sacco di frammenti di testo con posizioni — nessun metadato dice «qui finisce il paragrafo». Testo semplice leggibile senza ritorni non esiste, perciò lo strumento li deduce dalle distanze verticali: distanza piccola fra righe diventa un singolo ritorno, distanza maggiore (quella che i designer lasciano fra paragrafi) diventa una riga vuota. I casi consueti vengono giusti: corpo, titoli, elenchi. Se il designer ha usato spaziature inconsuete per altri scopi, lo strumento non lo indovina e quei punti possono chiedere una rifinitura leggera.

Le pagine sono separate da una riga vuota nell'output. Se preferisci nessun separatore di pagina, un trova-e-sostituisci del doppio ritorno con uno singolo li toglie.

Cosa non sopravvive all'estrazione

  • Grassetto, corsivo, font, colore, allineamento. Il testo semplice è piatto. Se ti serve conservare la formattazione, vedi pdf-to-word.
  • Tabelle. Le celle diventano testo semplice in ordine di lettura — di solito riga per riga, spesso con spaziature scomode. Le tabelle che devono restare tabelle stanno in pdf-to-excel.
  • Immagini e diagrammi. Tutto ciò che nel PDF non era testo non compare nel testo. Per estrarre le immagini a parte, vedi pdf-to-jpg.
  • Intestazioni e piè di pagina. Se l'originale ripeteva «Riservato — pagina X di Y» su ogni pagina, il testo estratto farà altrettanto. Un trova-e-sostituisci li rimuove in pochi secondi.
  • Parole spezzate con trattino a fine riga. Una parola interrotta da trattino esce come qual-\ncosa invece di qualcosa. Se conta per ricerca o correttore a valle, una regex -\n → vuoto sistema.
  • Impaginati a più colonne possono intrecciarsi. Un articolo scientifico a due colonne può uscire con frasi alternate fra colonna sinistra e destra. I documenti a colonna singola — la maggior parte di rapporti, contratti, libri — non ne risentono. Quando un risultato a colonne mescolate è inutilizzabile, è più pulito aprire il PDF in uno strumento che rispetti l'ordine delle colonne prima di riestrarre.

Qualche nota pratica

  1. Se il PDF è protetto da password, prima passalo per unlock-pdf. I PDF cifrati non si possono aprire per l'estrazione del testo.
  2. Per PDF molto grandi (centinaia di MB, migliaia di pagine) l'estrazione gira comunque nel browser. Su desktop è raramente un problema; su un telefono con una scansione di 500 pagine il limite è la memoria del browser. In quel caso, su desktop.
  3. L'output è UTF-8. Cirillico, greco, arabo, cinese, latino con accenti passano puliti se nel PDF erano memorizzati come testo vero. PDF che disegnavano caratteri non latini come glifi di sottoinsieme incorporati senza la codifica corretta producono spazzatura all'estrazione — è un problema del PDF, non dell'estrattore. Si cura alla sorgente: riesportare con codifica Unicode corretta.
  4. Schema del nome. Un file contract.pdf si scarica come contract.txt. Il PDF su disco resta dov'è.

Cosa succede al tuo file

L'estrazione gira nel tuo browser. Apri i DevTools e guarda la scheda Network durante l'operazione — niente richieste in uscita con il contenuto del file. Il PDF resta sul disco; il .txt è un nuovo download accanto.

FAQ

Domande frequenti

Come funziona l'estrazione?

Usiamo pdf.js di Mozilla per leggere il livello di testo incorporato del PDF, pagina per pagina. Gli elementi vengono raggruppati per coordinata Y così le interruzioni di paragrafo restano intatte — niente server, niente upload.

Funziona sui PDF scansionati?

No. Le scansioni sono immagini di testo, non testo — la loro estrazione richiede OCR, che questo strumento non esegue. Se il tuo PDF deriva da carta scansionata, ti serve prima uno strumento OCR.

Il mio file viene caricato da qualche parte?

Mai. L'estrazione avviene interamente nel tuo browser tramite WebAssembly — verificabile in DevTools → Network. Il file resta sul tuo dispositivo.

E i PDF protetti da password?

Sblocca prima il PDF con il nostro strumento Sblocca PDF e poi estrai. I flussi di contenuto cifrati non possono essere analizzati senza la password.

Qual è il limite di dimensione?

Fino a 100 MB. Oltre, la memoria del browser potrebbe esaurirsi — prova prima a dividere il file con Dividi PDF.