PDF Excelbe
online
Táblázatok kinyerése PDF-ekből szerkeszthető Excel munkafüzetekbe. A felismerés és elemzés teljes egészében a böngészőjében történik.
Győződjön meg róla: nyissa meg a DevTools → Network fület → dobjon be egy fájlt. Nézze, ahogy nulla feltöltés történik.
Három lépés. Nulla feltöltés.
Húzza ide a PDF-et
Töltse be a böngésző memóriájába.
Táblázatok felismerése
Megtaláljuk a táblázathatárokat és kliensoldalon elemezzük a cellákat.
XLSX letöltése
Nyissa meg Excelben, Numbersben vagy Google Sheetsben.
Amikor a táblázat egy PDF-ben ül, és újra táblázattá kell válnia
Az alkalmak rendszerint valaki más formátumválasztásának nyomában érkeznek. A bank PDF-ben küldi a kivonatot, és te táblázatkezelőbe akarod tölteni a tranzakciókat, hogy összegezz egy kategóriát. A beszállító árlistája PDF-ben jött, és össze akarod hasonlítani a múlt negyedévivel. Egy hatóság csak PDF-ben teszi közzé az adattáblákat, és cellákként van rájuk szükséged a rendezéshez és szűréshez. Egy lekapart jelentés PDF-ben van, és minden sort sorként akarsz látni. Mindegyik esetben a számok megvannak; egyszerűen nem viselkednek számként, mert egy elrendezésbe vannak zárva.
A feladat itt: visszanyerni a sorokat és oszlopokat — vidd be a PDF-et, kapj egy .xlsx-et, amelyben minden oldal saját munkalap, minden sor sor és minden oszlop oszlop. Innentől rendezhetsz, szűrhetsz, összegezhetsz, kimutatást készíthetsz — amire a táblázatkezelő való.
Miért tipp ez — és elég jó tipp
A PDF nem tárol táblázatokat. Belül egy oldal lapos szövegtöredékek folyama, x/y pozícióval a vásznon. Sehol sem írja, hogy „ez egy sor" vagy „itt kezdődik egy oszlop" — ezek a struktúrák csak a szemedben léteznek olvasás közben. Visszanyerni őket azt jelenti, hogy a rácsot abból vezeted le, hol ül ténylegesen a szöveg.
Az eszköz ezt több lépésben végzi. Először y szerint sorokba csoportosítja a szövegtöredékeket: ha két töredék függőlegesen körülbelül fél sormagasságon belül van, ugyanahhoz a sorhoz tartozik. Aztán a soron belül: a vízszintesen közel eső töredékek egyetlen cellává olvadnak (szokásos betűközök), a szélesebb hézagok pedig cellahatárokká (oszlopközökké) válnak. Végül megnézi, hol kezdődnek a cellák az egész oldalon, megtalálja a domináns x-pozíciókat, és oszlopközpontként kezeli őket — minden cella a legközelebbihez kerül. Ebből áll össze a táblázatkezelő által kért téglalap alakú rács.
Mit talál el az algoritmus
- Klasszikus pénzügyi táblák — bankkivonatok, számlák, árlisták, költségelszámolások. Egy sor egy tételre, tiszta oszlopközök, jobbra igazított számok: pontosan az az eset, amelyre a heurisztika hangolva van, és általában rendben átfut.
- Egysoros bejegyzések. Amikor minden bejegyzés elfér egy sorban, a sorfelismerés megbízható.
- Teljes oldalszélességű táblák. Az oszlopfelismerés akkor működik a legjobban, ha az oszlopok jól elkülönülnek és állandóak az oldalon.
- Jobbra és balra igazítás. Az eszköz mindkettővel dolgozik — a felismerhető oszlopköz a fontos.
Hol nehezebben boldogul
- Sortöréses cellák. Egy cella, amelynek értéke átmegy a második sorba — hosszú termékleírás, többsoros cím — általában két sorra szakad. Apró kézi javítással a táblázatban orvosolható (vagy inkább pdf-to-txt, és a tábla kézi újraépítése, ha a javítás nem éri meg).
- Egyesített cellák. Egy fejléc, amely vizuálisan két oszlopot fed le, csak egyben jelenik meg — a hozzá legközelebbiben. Az egyesülést úgy látod, hogy A-ban érték, B-ben üres.
- Két tábla egymás mellett. Az oszlopkereső egyszerre látja mindkettőt, és egyetlen széles táblává laposíthatja. Segít, ha a PDF-et előbb félbeszeleted.
- Folyó szöveg ugyanazon az oldalon a táblával. A tábla feletti bekezdés saját „sorokat" tesz hozzá — néhány sor, amely valójában nem sor, könnyen törölhető.
- Több oldalas táblák. Minden oldal külön munkalap lesz. Egyetlen folyamatos táblává összevarrásukhoz a kinyerés után másold-illeszd az adatszakaszokat.
- Beolvasott PDF-ek. Ugyanaz a fenntartás, mint bármely szövegkinyerésnél: ha az oldal kép (beolvasott kivonat, lefotózott bizonylat), nincs mit olvasni. Először OCR másik eszközben.
Mit kapsz a végén
Egy .xlsx fájlt. Minden PDF-oldal saját munkalappá válik Page 1, Page 2 stb. néven. Excelben, Numbers-ben, Google Sheets-ben, LibreOffice-ban megnyílik — bármelyikben. A cellák egyszerű értékek; nincs formázás, képlet, stílus. A lényeg: a számok most számok, az oszlopok most oszlopok.
Ha xlsx helyett CSV-t szeretnél, a saját táblázatkezelődből mentsd a munkalapot CSV-ként — ez egy menü.
Gyakorlati megjegyzések
- Ha a PDF jelszóval védett, először engedd át unlock-pdf-en. A titkosított PDF-eket nem lehet megnyitni cellakinyeréshez.
- Nagyon széles tábláknál segít a forrás-PDF-et fekvőre forgatni a kinyerés előtt — kevesebb oszlop, tisztább köz. A forgatás a edit-pdf-ben.
- Ha csak szövegre van szükséged szerkezet nélkül, a pdf-to-txt gyorsabb, és az eredmény könnyebben átszervezhető.
- A fordított művelet — Excel-munkalapot PDF-be tenni — az excel-to-pdf.
Mi történik a fájloddal
A kinyerés a böngésződben fut. Nyisd meg a DevTools-t és figyeld a Network fület a művelet közben — nincs kimenő kérés a fájl tartalmával. A PDF a lemezen marad; az .xlsx új letöltés mellette.
Gyakori kérdések
Feltöltődik a PDF-em?
Nem. A felismerés és elemzés teljes egészében a böngészőjében történik. A fájl soha nem hagyja el az eszközét.
Működik szkennelt PDF-eken (OCR)?
A szkennelt táblázatoknak OCR-re van szükségük, hogy szerkeszthető cellákká váljanak. A szövegalapú PDF-ek (kijelölhető szöveggel) közvetlenül kinyerhetők.
Mennyire pontos a táblázatfelismerés?
A vonalas táblázatok és jól elválasztott rácsok tisztán kinyerhetők. Az egyesített cellák és szegély nélküli táblázatok manuális ellenőrzést igényelhetnek.
Választhatok konkrét oldalakat?
Igen. Válasszon ki egy oldaltartományt, hogy csak a szükséges oldalakból nyerje ki a táblázatokat.