PDF do Excel
Online
Extrahujte tabulky z PDF do editovatelných sešitů Excelu. Detekce i parsing probíhají zcela ve vašem prohlížeči.
Ověřte si sami: otevřete DevTools → záložku Network → přetáhněte soubor. Sledujte, jak neproběhne žádné nahrání.
Tři kroky. Nulové nahrávání.
Přetáhněte PDF
Načte se do paměti prohlížeče.
Detekce tabulek
Najdeme hranice tabulek a zpracujeme buňky na straně klienta.
Stáhněte XLSX
Otevřete v Excelu, Numbers nebo Google Sheets.
Když tabulka sedí v PDF a potřebujete ji jako tabulku
Důvody se obvykle vynořují po cizí volbě formátu. Banka pošle výpis jako PDF a vy chcete pohodit transakce do tabulky a sečíst kategorii. Ceník od dodavatele přišel v PDF a chcete ho srovnat s minulým čtvrtletím. Regulátor zveřejňuje datové tabulky jen v PDF a potřebujete je jako buňky, abyste mohli třídit a filtrovat. Vyscrapovaný report je v PDF a chcete každý řádek jako řádek. V každém z těchto případů čísla existují; jen se nechovají jako čísla, protože jsou zamčená v sazbě.
Úkol tady je obnovit řádky a sloupce: vzít PDF, vrátit .xlsx, kde každá stránka je vlastní list, každý řádek řádek a každý sloupec sloupec. Odtud můžete třídit, filtrovat, sčítat, dělat kontingenční tabulky — to, kvůli čemu tabulky existují.
Proč je to odhad — a poměrně dobrý
PDF tabulky neukládá. Uvnitř je stránka plochý proud textových úryvků se souřadnicemi x/y na plátně. Nikde není „toto je řádek" ani „tady začíná sloupec" — tyto struktury existují jen ve vašem oku, když čtete. Obnovit je znamená odvodit mřížku z toho, kde text fyzicky sedí.
Nástroj to dělá v několika krocích. Nejprve seskupí textové úryvky do řádků podle y: jsou-li dva úryvky vertikálně do zhruba půlky výšky řádku od sebe, patří do stejného řádku. Pak v rámci řádku úryvky blízko u sebe vodorovně sloučí do jedné buňky (běžné prokládání písmen) a širší mezery se stanou hranicemi buněk (mezisloupcové mezery). Nakonec se podívá, kde buňky napříč stránkou začínají, najde dominantní x-pozice a označí je za středy sloupců — každá buňka padne do nejbližšího. Výsledkem je obdélníková mřížka, kterou tabulka potřebuje.
Co algoritmus zvládá
- Klasické finanční tabulky — výpisy, faktury, ceníky, vyúčtování výdajů. Jeden řádek na záznam, čisté mezisloupcové mezery, čísla zarovnaná doprava: přesně případ, na který se heuristika ladila, a obvykle projde správně.
- Záznamy na jednom řádku. Pokud se každý záznam vejde na řádek, detekce řádků je spolehlivá.
- Tabulky na celou šířku stránky. Detekce sloupců funguje nejlépe, když jsou sloupce dostatečně rozestoupené a po stránce stejné.
- Pravostranné i levostranné zarovnání. Nástroj zvládá obojí — důležitá je rozeznatelná mezera mezi sloupci.
Kde má potíže
- Zalamované buňky. Buňka, jejíž hodnota přechází na druhý řádek — dlouhý popis produktu, víceřádková adresa — se obvykle rozpadne na dva řádky. Léčí to drobná ruční úprava v tabulce (nebo radši pdf-to-txt a sestavit tabulku ručně, když oprava nestojí za to).
- Sloučené buňky. Hlavička, která vizuálně překrývá dva sloupce, se objeví jen v jednom — v tom, kterému je nejblíž. Sloučení uvidíte jako hodnotu ve sloupci A a prázdné B.
- Dvě tabulky vedle sebe. Detektor sloupců vidí obě naráz a může je slepit do jedné široké. Pomáhá rozříznout PDF na poloviny předem.
- Souvislý text na téže stránce s tabulkou. Odstavec nad tabulkou přispěje vlastními „řádky" textu — pár řádků, které ve skutečnosti řádky nejsou, snadno smažete.
- Tabulky přes více stran. Každá stránka se stane vlastním listem. Pro spojení do jedné souvislé tabulky datové úseky po extrakci zkopírujte a vložte.
- Naskenovaná PDF. Stejné omezení jako u jakékoliv extrakce textu: pokud je stránka obrázek (naskenovaný výpis, vyfocená účtenka), není co číst. Nejdřív skrz OCR v jiném nástroji.
Co dostanete na konci
Jeden .xlsx. Každá stránka PDF se stane vlastním listem se jménem Page 1, Page 2 atd. Otevře se v Excelu, Numbers, Google Sheets, LibreOffice — kdekoliv. Buňky jsou prosté hodnoty; bez formátování, vzorců, stylů. Smysl je, že čísla jsou teď čísla a sloupce jsou sloupce.
Pokud chcete CSV místo xlsx, uložte list jako CSV ve svém tabulkovém procesoru — je to jedno menu daleko.
Praktické poznámky
- Jestli má PDF heslo, nejdřív přes unlock-pdf. Šifrované PDF nelze otevřít pro extrakci buněk.
- U velmi širokých tabulek pomáhá zdrojové PDF před extrakcí otočit na šířku — méně sloupců, čistší mezery. Otočení dělá edit-pdf.
- Jestli potřebujete jen text bez struktury, pdf-to-txt je rychlejší a výsledek se snáz přesází.
- Opačná operace — vložit list Excelu do PDF — je excel-to-pdf.
Co se stane s vaším souborem
Extrakce běží ve vašem prohlížeči. Otevřete DevTools a sledujte záložku Network během operace — žádné odchozí požadavky s obsahem souboru. PDF zůstává na disku; .xlsx je nový soubor ke stažení vedle něj.
Časté dotazy
Nahrává se moje PDF?
Ne. Detekce i parsing probíhají zcela v prohlížeči. Soubor neopouští vaše zařízení.
Funguje i na skenovaných PDF (OCR)?
Skenované tabulky potřebují OCR, aby se staly editovatelnými buňkami. PDF s textem (s vybratelným textem) se extrahují přímo.
Jak přesná je detekce tabulek?
Tabulky s čarami a dobře rozmístěné mřížky se extrahují čistě. Sloučené buňky a tabulky bez rámečků mohou vyžadovat ruční kontrolu.
Mohu vybrat konkrétní stránky?
Ano. Vyberte rozsah stránek, abyste extrahovali tabulky jen z těch, které potřebujete.