PDF Excelbe

PDF Excelbe
online

Táblázatok kinyerése PDF-ekből szerkeszthető Excel munkafüzetekbe. A felismerés és elemzés teljes egészében a böngészőjében történik.

Húzza ide a PDF-et
Felismerjük a táblázatokat, és tiszta XLSX fájlként exportáljuk őket.

Győződjön meg róla: nyissa meg a DevTools → Network fület → dobjon be egy fájlt. Nézze, ahogy nulla feltöltés történik.

Táblázatok automatikus felismerése Az első betöltés után offline is működik
Ingyenes
Regisztráció nélkül
Feltöltés nélkül
Táblázatok megőrizve
HOGYAN MŰKÖDIK

Három lépés. Nulla feltöltés.

1

Húzza ide a PDF-et

Töltse be a böngésző memóriájába.

2

Táblázatok felismerése

Megtaláljuk a táblázathatárokat és kliensoldalon elemezzük a cellákat.

3

XLSX letöltése

Nyissa meg Excelben, Numbersben vagy Google Sheetsben.

Amikor a táblázat egy PDF-ben ül, és újra táblázattá kell válnia

Az alkalmak rendszerint valaki más formátumválasztásának nyomában érkeznek. A bank PDF-ben küldi a kivonatot, és te táblázatkezelőbe akarod tölteni a tranzakciókat, hogy összegezz egy kategóriát. A beszállító árlistája PDF-ben jött, és össze akarod hasonlítani a múlt negyedévivel. Egy hatóság csak PDF-ben teszi közzé az adattáblákat, és cellákként van rájuk szükséged a rendezéshez és szűréshez. Egy lekapart jelentés PDF-ben van, és minden sort sorként akarsz látni. Mindegyik esetben a számok megvannak; egyszerűen nem viselkednek számként, mert egy elrendezésbe vannak zárva.

A feladat itt: visszanyerni a sorokat és oszlopokat — vidd be a PDF-et, kapj egy .xlsx-et, amelyben minden oldal saját munkalap, minden sor sor és minden oszlop oszlop. Innentől rendezhetsz, szűrhetsz, összegezhetsz, kimutatást készíthetsz — amire a táblázatkezelő való.

Miért tipp ez — és elég jó tipp

A PDF nem tárol táblázatokat. Belül egy oldal lapos szövegtöredékek folyama, x/y pozícióval a vásznon. Sehol sem írja, hogy „ez egy sor" vagy „itt kezdődik egy oszlop" — ezek a struktúrák csak a szemedben léteznek olvasás közben. Visszanyerni őket azt jelenti, hogy a rácsot abból vezeted le, hol ül ténylegesen a szöveg.

Az eszköz ezt több lépésben végzi. Először y szerint sorokba csoportosítja a szövegtöredékeket: ha két töredék függőlegesen körülbelül fél sormagasságon belül van, ugyanahhoz a sorhoz tartozik. Aztán a soron belül: a vízszintesen közel eső töredékek egyetlen cellává olvadnak (szokásos betűközök), a szélesebb hézagok pedig cellahatárokká (oszlopközökké) válnak. Végül megnézi, hol kezdődnek a cellák az egész oldalon, megtalálja a domináns x-pozíciókat, és oszlopközpontként kezeli őket — minden cella a legközelebbihez kerül. Ebből áll össze a táblázatkezelő által kért téglalap alakú rács.

Mit talál el az algoritmus

  • Klasszikus pénzügyi táblák — bankkivonatok, számlák, árlisták, költségelszámolások. Egy sor egy tételre, tiszta oszlopközök, jobbra igazított számok: pontosan az az eset, amelyre a heurisztika hangolva van, és általában rendben átfut.
  • Egysoros bejegyzések. Amikor minden bejegyzés elfér egy sorban, a sorfelismerés megbízható.
  • Teljes oldalszélességű táblák. Az oszlopfelismerés akkor működik a legjobban, ha az oszlopok jól elkülönülnek és állandóak az oldalon.
  • Jobbra és balra igazítás. Az eszköz mindkettővel dolgozik — a felismerhető oszlopköz a fontos.

Hol nehezebben boldogul

  • Sortöréses cellák. Egy cella, amelynek értéke átmegy a második sorba — hosszú termékleírás, többsoros cím — általában két sorra szakad. Apró kézi javítással a táblázatban orvosolható (vagy inkább pdf-to-txt, és a tábla kézi újraépítése, ha a javítás nem éri meg).
  • Egyesített cellák. Egy fejléc, amely vizuálisan két oszlopot fed le, csak egyben jelenik meg — a hozzá legközelebbiben. Az egyesülést úgy látod, hogy A-ban érték, B-ben üres.
  • Két tábla egymás mellett. Az oszlopkereső egyszerre látja mindkettőt, és egyetlen széles táblává laposíthatja. Segít, ha a PDF-et előbb félbeszeleted.
  • Folyó szöveg ugyanazon az oldalon a táblával. A tábla feletti bekezdés saját „sorokat" tesz hozzá — néhány sor, amely valójában nem sor, könnyen törölhető.
  • Több oldalas táblák. Minden oldal külön munkalap lesz. Egyetlen folyamatos táblává összevarrásukhoz a kinyerés után másold-illeszd az adatszakaszokat.
  • Beolvasott PDF-ek. Ugyanaz a fenntartás, mint bármely szövegkinyerésnél: ha az oldal kép (beolvasott kivonat, lefotózott bizonylat), nincs mit olvasni. Először OCR másik eszközben.

Mit kapsz a végén

Egy .xlsx fájlt. Minden PDF-oldal saját munkalappá válik Page 1, Page 2 stb. néven. Excelben, Numbers-ben, Google Sheets-ben, LibreOffice-ban megnyílik — bármelyikben. A cellák egyszerű értékek; nincs formázás, képlet, stílus. A lényeg: a számok most számok, az oszlopok most oszlopok.

Ha xlsx helyett CSV-t szeretnél, a saját táblázatkezelődből mentsd a munkalapot CSV-ként — ez egy menü.

Gyakorlati megjegyzések

  1. Ha a PDF jelszóval védett, először engedd át unlock-pdf-en. A titkosított PDF-eket nem lehet megnyitni cellakinyeréshez.
  2. Nagyon széles tábláknál segít a forrás-PDF-et fekvőre forgatni a kinyerés előtt — kevesebb oszlop, tisztább köz. A forgatás a edit-pdf-ben.
  3. Ha csak szövegre van szükséged szerkezet nélkül, a pdf-to-txt gyorsabb, és az eredmény könnyebben átszervezhető.
  4. A fordított művelet — Excel-munkalapot PDF-be tenni — az excel-to-pdf.

Mi történik a fájloddal

A kinyerés a böngésződben fut. Nyisd meg a DevTools-t és figyeld a Network fület a művelet közben — nincs kimenő kérés a fájl tartalmával. A PDF a lemezen marad; az .xlsx új letöltés mellette.

GYIK

Gyakori kérdések

Feltöltődik a PDF-em?

Nem. A felismerés és elemzés teljes egészében a böngészőjében történik. A fájl soha nem hagyja el az eszközét.

Működik szkennelt PDF-eken (OCR)?

A szkennelt táblázatoknak OCR-re van szükségük, hogy szerkeszthető cellákká váljanak. A szövegalapú PDF-ek (kijelölhető szöveggel) közvetlenül kinyerhetők.

Mennyire pontos a táblázatfelismerés?

A vonalas táblázatok és jól elválasztott rácsok tisztán kinyerhetők. Az egyesített cellák és szegély nélküli táblázatok manuális ellenőrzést igényelhetnek.

Választhatok konkrét oldalakat?

Igen. Válasszon ki egy oldaltartományt, hogy csak a szükséges oldalakból nyerje ki a táblázatokat.