PDF do Excelu

PDF do Excel
Online

Extrahujte tabulky z PDF do editovatelných sešitů Excelu. Detekce i parsing probíhají zcela ve vašem prohlížeči.

Přetáhněte PDF

Detekujeme tabulky a exportujeme je jako čistý soubor XLSX.

Ověřte si sami: otevřete DevTools → záložku Network → přetáhněte soubor. Sledujte, jak neproběhne žádné nahrání.

Tabulky automaticky Po prvním načtení funguje offline

Zdarma

Bez registrace

Bez nahrávání

Zachovány tabulky

Výstup

XLSX

Extrahuji lokálně…

invoice.pdf Hotovo

Razítko soukromí

Každý nástroj

0 BAJTŮ PŘENESENO

JAK TO FUNGUJE

Tři kroky. Nulové nahrávání.

Přetáhněte PDF

Načte se do paměti prohlížeče.

Detekce tabulek

Najdeme hranice tabulek a zpracujeme buňky na straně klienta.

Stáhněte XLSX

Otevřete v Excelu, Numbers nebo Google Sheets.

Když tabulka sedí v PDF a potřebujete ji jako tabulku

Důvody se obvykle vynořují po cizí volbě formátu. Banka pošle výpis jako PDF a vy chcete pohodit transakce do tabulky a sečíst kategorii. Ceník od dodavatele přišel v PDF a chcete ho srovnat s minulým čtvrtletím. Regulátor zveřejňuje datové tabulky jen v PDF a potřebujete je jako buňky, abyste mohli třídit a filtrovat. Vyscrapovaný report je v PDF a chcete každý řádek jako řádek. V každém z těchto případů čísla existují; jen se nechovají jako čísla, protože jsou zamčená v sazbě.

Úkol tady je obnovit řádky a sloupce: vzít PDF, vrátit .xlsx, kde každá stránka je vlastní list, každý řádek řádek a každý sloupec sloupec. Odtud můžete třídit, filtrovat, sčítat, dělat kontingenční tabulky — to, kvůli čemu tabulky existují.

Proč je to odhad — a poměrně dobrý

PDF tabulky neukládá. Uvnitř je stránka plochý proud textových úryvků se souřadnicemi x/y na plátně. Nikde není „toto je řádek" ani „tady začíná sloupec" — tyto struktury existují jen ve vašem oku, když čtete. Obnovit je znamená odvodit mřížku z toho, kde text fyzicky sedí.

Nástroj to dělá v několika krocích. Nejprve seskupí textové úryvky do řádků podle y: jsou-li dva úryvky vertikálně do zhruba půlky výšky řádku od sebe, patří do stejného řádku. Pak v rámci řádku úryvky blízko u sebe vodorovně sloučí do jedné buňky (běžné prokládání písmen) a širší mezery se stanou hranicemi buněk (mezisloupcové mezery). Nakonec se podívá, kde buňky napříč stránkou začínají, najde dominantní x-pozice a označí je za středy sloupců — každá buňka padne do nejbližšího. Výsledkem je obdélníková mřížka, kterou tabulka potřebuje.

Co algoritmus zvládá

Klasické finanční tabulky — výpisy, faktury, ceníky, vyúčtování výdajů. Jeden řádek na záznam, čisté mezisloupcové mezery, čísla zarovnaná doprava: přesně případ, na který se heuristika ladila, a obvykle projde správně.
Záznamy na jednom řádku. Pokud se každý záznam vejde na řádek, detekce řádků je spolehlivá.
Tabulky na celou šířku stránky. Detekce sloupců funguje nejlépe, když jsou sloupce dostatečně rozestoupené a po stránce stejné.
Pravostranné i levostranné zarovnání. Nástroj zvládá obojí — důležitá je rozeznatelná mezera mezi sloupci.

Kde má potíže

Zalamované buňky. Buňka, jejíž hodnota přechází na druhý řádek — dlouhý popis produktu, víceřádková adresa — se obvykle rozpadne na dva řádky. Léčí to drobná ruční úprava v tabulce (nebo radši pdf-to-txt a sestavit tabulku ručně, když oprava nestojí za to).
Sloučené buňky. Hlavička, která vizuálně překrývá dva sloupce, se objeví jen v jednom — v tom, kterému je nejblíž. Sloučení uvidíte jako hodnotu ve sloupci A a prázdné B.
Dvě tabulky vedle sebe. Detektor sloupců vidí obě naráz a může je slepit do jedné široké. Pomáhá rozříznout PDF na poloviny předem.
Souvislý text na téže stránce s tabulkou. Odstavec nad tabulkou přispěje vlastními „řádky" textu — pár řádků, které ve skutečnosti řádky nejsou, snadno smažete.
Tabulky přes více stran. Každá stránka se stane vlastním listem. Pro spojení do jedné souvislé tabulky datové úseky po extrakci zkopírujte a vložte.
Naskenovaná PDF. Stejné omezení jako u jakékoliv extrakce textu: pokud je stránka obrázek (naskenovaný výpis, vyfocená účtenka), není co číst. Nejdřív skrz OCR v jiném nástroji.

Co dostanete na konci

Jeden .xlsx. Každá stránka PDF se stane vlastním listem se jménem Page 1, Page 2 atd. Otevře se v Excelu, Numbers, Google Sheets, LibreOffice — kdekoliv. Buňky jsou prosté hodnoty; bez formátování, vzorců, stylů. Smysl je, že čísla jsou teď čísla a sloupce jsou sloupce.

Pokud chcete CSV místo xlsx, uložte list jako CSV ve svém tabulkovém procesoru — je to jedno menu daleko.

Praktické poznámky

Jestli má PDF heslo, nejdřív přes unlock-pdf. Šifrované PDF nelze otevřít pro extrakci buněk.
U velmi širokých tabulek pomáhá zdrojové PDF před extrakcí otočit na šířku — méně sloupců, čistší mezery. Otočení dělá edit-pdf.
Jestli potřebujete jen text bez struktury, pdf-to-txt je rychlejší a výsledek se snáz přesází.
Opačná operace — vložit list Excelu do PDF — je excel-to-pdf.

Co se stane s vaším souborem

Extrakce běží ve vašem prohlížeči. Otevřete DevTools a sledujte záložku Network během operace — žádné odchozí požadavky s obsahem souboru. PDF zůstává na disku; .xlsx je nový soubor ke stažení vedle něj.

FAQ

Časté dotazy

Nahrává se moje PDF?

Ne. Detekce i parsing probíhají zcela v prohlížeči. Soubor neopouští vaše zařízení.

Funguje i na skenovaných PDF (OCR)?

Skenované tabulky potřebují OCR, aby se staly editovatelnými buňkami. PDF s textem (s vybratelným textem) se extrahují přímo.

Jak přesná je detekce tabulek?

Tabulky s čarami a dobře rozmístěné mřížky se extrahují čistě. Sloučené buňky a tabulky bez rámečků mohou vyžadovat ruční kontrolu.

Mohu vybrat konkrétní stránky?

Ano. Vyberte rozsah stránek, abyste extrahovali tabulky jen z těch, které potřebujete.

PDF do Excel Online

Tři kroky. Nulové nahrávání.

Přetáhněte PDF

Detekce tabulek

Stáhněte XLSX

Když tabulka sedí v PDF a potřebujete ji jako tabulku

Proč je to odhad — a poměrně dobrý

Co algoritmus zvládá

Kde má potíže

Co dostanete na konci

Praktické poznámky

Co se stane s vaším souborem

Časté dotazy

Nahrává se moje PDF?

Funguje i na skenovaných PDF (OCR)?

Jak přesná je detekce tabulek?

Mohu vybrat konkrétní stránky?

Související nástroje

PDF do Excel
Online