PDF în Excel

PDF în Excel
Online

Extrage tabele din PDF-uri în registre Excel editabile. Detectarea și parsarea au loc integral în browserul tău.

Trage PDF-ul
Detectăm tabelele și le exportăm ca fișier XLSX curat.

Verifică tu însuți: deschide DevTools → fila Network → trage un fișier. Vei vedea zero încărcări.

Tabele detectate automat Funcționează offline după prima încărcare
Gratuit
Fără cont
Fără încărcare
Tabele păstrate
CUM FUNCȚIONEAZĂ

Trei pași. Zero încărcări.

1

Trage PDF-ul

Se încarcă în memoria browserului.

2

Detectează tabele

Găsim limitele tabelelor și parsăm celulele pe partea de client.

3

Descarcă XLSX-ul

Deschide în Excel, Numbers sau Google Sheets.

Când tabelul stă într-un PDF și trebuie să redevină tabel

Situațiile apar de obicei în urma alegerii de format a altcuiva. Banca trimite extrasul ca PDF, iar tu vrei să torni tranzacțiile într-o foaie de calcul ca să aduni o categorie. Lista de prețuri de la furnizor a venit în PDF și vrei să o compari cu trimestrul trecut. O autoritate publică tabelele de date doar ca PDF, iar ție îți trebuie ca celule pentru a sorta și filtra. Un raport extras prin scraping e în PDF și vrei fiecare rând ca rând. În toate aceste cazuri cifrele există; pur și simplu nu se comportă ca cifre fiindcă sunt prinse într-o paginare.

Sarcina aici este să recuperezi rândurile și coloanele: iei PDF-ul, primești un .xlsx în care fiecare pagină e propria foaie, fiecare rând e un rând și fiecare coloană e o coloană. De acolo poți sorta, filtra, însuma, face tabele pivot — pentru asta există foile de calcul.

De ce e o presupunere — și una destul de bună

PDF-urile nu păstrează tabele. În interior, o pagină este un flux plat de fragmente de text cu poziții x/y pe pânză. Nicăieri nu scrie „acesta e un rând" sau „aici începe o coloană" — aceste structuri există doar în ochiul tău, când citești. A le recupera înseamnă a deduce grila din locul în care textul stă efectiv.

Unealta o face în mai mulți pași. Mai întâi grupează fragmentele în rânduri după y: dacă două fragmente sunt vertical la aproximativ jumătate de înălțime de rând unul de altul, aparțin aceluiași rând. Apoi, în interiorul rândului, fragmentele apropiate orizontal se contopesc într-o singură celulă (spațiere de litere obișnuită), iar spațiile mai largi devin granițe de celulă (culoare între coloane). În final, se uită unde încep celulele de-a lungul întregii pagini, găsește pozițiile x dominante și le tratează drept centre de coloană — fiecare celulă merge la cea mai apropiată. Iese grila dreptunghiulară pe care o cere foaia de calcul.

Ce algoritmul prinde corect

  • Tabele financiare clasice — extrase, facturi, liste de prețuri, deconturi. Un rând pe înregistrare, culoare clare între coloane, numere aliniate la dreapta: exact cazul pentru care heuristica a fost reglată, și în general iese curat.
  • Înregistrări pe un singur rând. Când fiecare înregistrare încape pe un rând, detecția rândurilor e fiabilă.
  • Tabele pe toată lățimea paginii. Detecția coloanelor merge cel mai bine când coloanele sunt distanțate bine și constante de-a lungul paginii.
  • Aliniere la dreapta și la stânga. Unealta se descurcă cu ambele — important este un culoar vizibil între coloane.

Unde are dificultăți

  • Celule cu rupere de rând. O celulă a cărei valoare trece pe al doilea rând — descriere lungă de produs, adresă pe mai multe linii — se sparge de obicei pe două rânduri. Se rezolvă cu o mică retușare manuală în foaie (sau mai degrabă pdf-to-txt și reconstrucția tabelului manual, dacă retușarea nu merită).
  • Celule îmbinate. Un antet care vizual acoperă două coloane apare doar în una — cea mai apropiată. Îmbinarea o vezi ca valoare în coloana A și B gol.
  • Două tabele alăturate. Detectorul de coloane le vede pe amândouă deodată și poate să le strivească într-un singur tabel lat. Tăierea PDF-ului în jumătăți în prealabil ajută.
  • Text curent pe aceeași pagină cu un tabel. Un paragraf deasupra tabelului contribuie cu propriile sale „rânduri" de text — câteva rânduri care de fapt nu sunt rânduri, ușor de șters.
  • Tabele pe mai multe pagini. Fiecare pagină devine o foaie separată. Pentru a le coase într-un tabel continuu, copiezi și lipești blocurile de date după extragere.
  • PDF-uri scanate. Aceeași rezervă ca pentru orice extragere de text: dacă pagina e o imagine (extras scanat, bon fotografiat), nu există ce citi. Mai întâi OCR în alt instrument.

Ce primești la final

Un fișier .xlsx. Fiecare pagină a PDF-ului devine o foaie proprie cu numele Page 1, Page 2 etc. Se deschide în Excel, Numbers, Google Sheets, LibreOffice — în oricare. Celulele sunt valori simple; fără formatare, fără formule, fără stiluri. Sensul e că numerele sunt acum numere, iar coloanele sunt coloane.

Dacă preferi CSV în loc de xlsx, salvează foaia ca CSV din aplicația ta de calcul tabelar — e la un meniu distanță.

Note practice

  1. Dacă PDF-ul are parolă, trece-l mai întâi prin unlock-pdf. PDF-urile criptate nu pot fi deschise pentru extragere de celule.
  2. Pentru tabele foarte late ajută să rotești PDF-ul sursă în peisaj înainte de extragere — mai puține coloane, culoare mai curate. Rotirea se face în edit-pdf.
  3. Dacă ai nevoie doar de text fără structură, pdf-to-txt e mai rapid, iar rezultatul e mai ușor de rearanjat.
  4. Operația inversă — a pune o foaie Excel într-un PDF — este excel-to-pdf.

Ce se întâmplă cu fișierul tău

Extragerea rulează în browserul tău. Deschide DevTools și uită-te la fila Network în timpul operației — fără cereri ieșite cu conținutul fișierului. PDF-ul rămâne pe disc; .xlsx-ul e o descărcare nouă alături.

FAQ

Întrebări frecvente

PDF-ul meu este încărcat?

Nu. Detectarea și parsarea au loc integral în browserul tău. Fișierul nu părăsește niciodată dispozitivul.

Funcționează pe PDF-uri scanate (OCR)?

Tabelele scanate au nevoie de OCR pentru a deveni celule editabile. PDF-urile bazate pe text (cu text selectabil) se extrag direct.

Cât de exactă este detectarea tabelelor?

Tabelele cu linii și grilele bine spațiate se extrag curat. Celulele îmbinate și tabelele fără chenare pot necesita revizuire manuală.

Pot alege pagini specifice?

Da. Selectează un interval de pagini pentru a extrage tabele doar din paginile de care ai nevoie.