Extrage text din orice PDF,
în browserul tău.
Extrage un strat de text curat din orice PDF — paragrafele păstrate, multi-pagină, UTF-8. Extragerea rulează în browser, deci fișierul nu părăsește niciodată dispozitivul.
Verifică tu însuți: deschide DevTools → fila Network → trage un fișier. Vei vedea zero încărcări.
Trei pași. PDF-ul tău nu părăsește niciodată această filă.
Trage PDF-ul
Alege fișierul din care vrei să extragi textul. Se încarcă în memoria browserului tău, nu pe un server.
Citim stratul de text
pdf.js parcurge fiecare pagină, sortează elementele după coordonata Y și reconstruiește pauzele de paragraf unde trebuie.
Copiază sau descarcă .txt
Primește text simplu UTF-8 curat. Copiază în clipboard sau salvează ca fișier .txt — alegerea ta.
Când vrei textul, nu PDF-ul
Motivele pentru a extrage textul dintr-un PDF se învârt aproape mereu în jurul aceluiași lucru: să duci cuvintele acolo unde PDF-ul nu intră. Vrei să lipești un citat într-un e-mail fără să cari PDF-ul ca atașament. Dai un document lung unui asistent IA care primește doar text simplu. Vrei să faci grep într-un raport de 200 de pagini după o frază și căutarea cititorului ascunde ceva. Traduci un contract și unealta de traducere vrea sursa ca fișier plat. Aduci un manuscris paginat dintr-un PDF înapoi într-un editor de text. În toate aceste cazuri ambalajul stă în drum — cuvintele sunt în regulă, doar sunt prinse într-o paginare greu de recompus.
Ieșirea aici e exact asta: text simplu, un singur .txt mare, în aceeași ordine în care PDF-ul se citește. Fără formatare, fără fonturi, fără imagini, fără tabele-ca-tabele. Misiunea e să eliberezi cuvintele.
Ce face de fapt „extragerea"
Un PDF ține două feluri de „text". Text adevărat — caractere desenate cu fonturi pe care PDF-ul le marchează drept litere — stă într-un strat de text. Acel strat unealta îl citește direct. Celălalt fel este text care există doar ca pixeli: tot ce a fost scanat, fotografiat sau capturat ca imagine înainte să fie pus în PDF. Acele caractere sunt imagini de litere, nu litere, și niciun extractor nu le vede ca text fără OCR. Aici nu există un pas OCR.
Două verificări rapide îți spun ce fel de PDF ai. Deschide-l în orice cititor, dă clic și trage pe un paragraf: dacă textul se selectează curat, există un strat de text și extragerea funcționează. Dacă cursorul desenează un dreptunghi și nu se selectează nimic, pagina e o imagine și trebuie întâi trecută prin OCR (în alt instrument) ca extractorul să aibă ce citi.
Cum ies întreruperile de rând și paragrafele
PDF-urile nu păstrează paragrafe. În interior, o pagină e un sac de fragmente de text cu poziții — niciun metadat care să spună „aici se termină paragraful". Text simplu lizibil fără rupturi nu există, așa că unealta le deduce din spațiile verticale: un spațiu mic între rânduri devine o singură ruptură, un spațiu mai mare (cel pe care designerii îl lasă între paragrafe) devine o linie goală. Cazurile obișnuite ies bine: corpul, titlurile, listele. Când designerul a folosit spații neobișnuite pentru altceva, unealta nu poate ghici și acele puncte pot cere o mică retușare.
În ieșire paginile sunt despărțite de o linie goală. Dacă preferi fără separatori de pagină, un caută-și-înlocuiește dublei rupturi cu una singură le scoate.
Ce nu supraviețuiește extragerii
- Bold, italic, fonturi, culoare, aliniere. Textul simplu e plat. Dacă trebuie să păstrezi formatarea, vezi pdf-to-word.
- Tabele. Celulele devin text simplu în ordinea de citire — de obicei rând cu rând, adesea cu spațiere stângace. Tabelele care trebuie să rămână tabele aparțin lui pdf-to-excel.
- Imagini și diagrame. Ce nu era text în PDF nu apare în text. Pentru a extrage imaginile separat, vezi pdf-to-jpg.
- Anteturi și subsoluri. Dacă originalul repeta „Confidențial — pagina X din Y" pe fiecare pagină, textul extras face la fel. Un caută-și-înlocuiește le scoate în secunde.
- Cuvinte rupte cu cratimă la sfârșit de rând. Un cuvânt rupt cu cratimă iese ca
ce-\nvaîn loc deceva. Dacă asta contează pentru căutarea sau verificatorul ortografic ulterior, un regex-\n→ gol rezolvă. - Paginațiile pe mai multe coloane se pot încurca. Un articol științific pe două coloane poate ieși cu propoziții alternate din coloana stângă și dreaptă. Documentele cu o singură coloană — majoritatea rapoartelor, contractelor, cărților — nu sunt afectate. Când rezultatul amestecat e neutilizabil, e mai curat să deschizi PDF-ul într-un instrument care respectă ordinea coloanelor înainte să reextragi.
Câteva note practice
- Dacă PDF-ul are parolă, trece-l mai întâi prin unlock-pdf. PDF-urile criptate nu pot fi deschise pentru extragerea textului.
- Pentru PDF-uri foarte mari (sute de MB, mii de pagini) extragerea tot rulează în browserul tău. Pe desktop e rareori o problemă; pe un telefon cu o scanare de 500 de pagini, plafonul e memoria browserului. În acel caz, pe desktop.
- Ieșirea e UTF-8. Chirilica, greaca, araba, chineza, latina cu diacritice trec curat dacă PDF-ul le-a stocat ca text adevărat. PDF-urile care desenau caractere non-latine ca glife de subset încorporate fără codificare corectă produc gunoi la extragere — e o problemă a PDF-ului, nu a extractorului. Se rezolvă la sursă: reexport cu codificare Unicode corectă.
- Tipar de nume. Un fișier
contract.pdfse descarcă dreptcontract.txt. PDF-ul de pe disc rămâne unde era.
Ce se întâmplă cu fișierul tău
Extragerea rulează în browserul tău. Deschide DevTools și uită-te la fila Network în timpul operației — nu există cereri ieșite cu conținutul fișierului. PDF-ul rămâne pe disc; .txt e o descărcare nouă alături.
Întrebări frecvente
Cum funcționează extragerea?
Folosim pdf.js de la Mozilla pentru a citi stratul de text încorporat al PDF-ului tău, pagină cu pagină. Elementele sunt grupate după coordonata Y, astfel încât pauzele de paragraf rezistă — fără server, fără încărcare.
Funcționează pe PDF-uri scanate?
Nu. Scanările sunt imagini cu text, nu text — extragerea lor necesită OCR, pe care acest instrument nu îl rulează. Dacă PDF-ul tău provine din scanarea hârtiei, vei avea nevoie mai întâi de un instrument OCR.
Fișierul meu este încărcat undeva?
Niciodată. Extragerea rulează integral în browserul tău prin WebAssembly — verificabil în DevTools → Network. Fișierul rămâne pe dispozitivul tău.
Cum stau lucrurile cu PDF-urile protejate cu parolă?
Deblochează mai întâi PDF-ul folosind instrumentul nostru Deblocare PDF, apoi extrage. Content stream-urile criptate nu pot fi parsate fără parolă.
Care este limita de dimensiune?
Până la 100 MB. Mai mult ar putea epuiza memoria browserului — încearcă să-l împarți cu instrumentul Împărțire PDF mai întâi.