PDF do Excelu

PDF do Excel
Online

Extrahujte tabulky z PDF do editovatelných sešitů Excelu. Detekce i parsing probíhají zcela ve vašem prohlížeči.

Přetáhněte PDF
Detekujeme tabulky a exportujeme je jako čistý soubor XLSX.

Ověřte si sami: otevřete DevTools → záložku Network → přetáhněte soubor. Sledujte, jak neproběhne žádné nahrání.

Tabulky automaticky Po prvním načtení funguje offline
Zdarma
Bez registrace
Bez nahrávání
Zachovány tabulky
JAK TO FUNGUJE

Tři kroky. Nulové nahrávání.

1

Přetáhněte PDF

Načte se do paměti prohlížeče.

2

Detekce tabulek

Najdeme hranice tabulek a zpracujeme buňky na straně klienta.

3

Stáhněte XLSX

Otevřete v Excelu, Numbers nebo Google Sheets.

Když tabulka sedí v PDF a potřebujete ji jako tabulku

Důvody se obvykle vynořují po cizí volbě formátu. Banka pošle výpis jako PDF a vy chcete pohodit transakce do tabulky a sečíst kategorii. Ceník od dodavatele přišel v PDF a chcete ho srovnat s minulým čtvrtletím. Regulátor zveřejňuje datové tabulky jen v PDF a potřebujete je jako buňky, abyste mohli třídit a filtrovat. Vyscrapovaný report je v PDF a chcete každý řádek jako řádek. V každém z těchto případů čísla existují; jen se nechovají jako čísla, protože jsou zamčená v sazbě.

Úkol tady je obnovit řádky a sloupce: vzít PDF, vrátit .xlsx, kde každá stránka je vlastní list, každý řádek řádek a každý sloupec sloupec. Odtud můžete třídit, filtrovat, sčítat, dělat kontingenční tabulky — to, kvůli čemu tabulky existují.

Proč je to odhad — a poměrně dobrý

PDF tabulky neukládá. Uvnitř je stránka plochý proud textových úryvků se souřadnicemi x/y na plátně. Nikde není „toto je řádek" ani „tady začíná sloupec" — tyto struktury existují jen ve vašem oku, když čtete. Obnovit je znamená odvodit mřížku z toho, kde text fyzicky sedí.

Nástroj to dělá v několika krocích. Nejprve seskupí textové úryvky do řádků podle y: jsou-li dva úryvky vertikálně do zhruba půlky výšky řádku od sebe, patří do stejného řádku. Pak v rámci řádku úryvky blízko u sebe vodorovně sloučí do jedné buňky (běžné prokládání písmen) a širší mezery se stanou hranicemi buněk (mezisloupcové mezery). Nakonec se podívá, kde buňky napříč stránkou začínají, najde dominantní x-pozice a označí je za středy sloupců — každá buňka padne do nejbližšího. Výsledkem je obdélníková mřížka, kterou tabulka potřebuje.

Co algoritmus zvládá

  • Klasické finanční tabulky — výpisy, faktury, ceníky, vyúčtování výdajů. Jeden řádek na záznam, čisté mezisloupcové mezery, čísla zarovnaná doprava: přesně případ, na který se heuristika ladila, a obvykle projde správně.
  • Záznamy na jednom řádku. Pokud se každý záznam vejde na řádek, detekce řádků je spolehlivá.
  • Tabulky na celou šířku stránky. Detekce sloupců funguje nejlépe, když jsou sloupce dostatečně rozestoupené a po stránce stejné.
  • Pravostranné i levostranné zarovnání. Nástroj zvládá obojí — důležitá je rozeznatelná mezera mezi sloupci.

Kde má potíže

  • Zalamované buňky. Buňka, jejíž hodnota přechází na druhý řádek — dlouhý popis produktu, víceřádková adresa — se obvykle rozpadne na dva řádky. Léčí to drobná ruční úprava v tabulce (nebo radši pdf-to-txt a sestavit tabulku ručně, když oprava nestojí za to).
  • Sloučené buňky. Hlavička, která vizuálně překrývá dva sloupce, se objeví jen v jednom — v tom, kterému je nejblíž. Sloučení uvidíte jako hodnotu ve sloupci A a prázdné B.
  • Dvě tabulky vedle sebe. Detektor sloupců vidí obě naráz a může je slepit do jedné široké. Pomáhá rozříznout PDF na poloviny předem.
  • Souvislý text na téže stránce s tabulkou. Odstavec nad tabulkou přispěje vlastními „řádky" textu — pár řádků, které ve skutečnosti řádky nejsou, snadno smažete.
  • Tabulky přes více stran. Každá stránka se stane vlastním listem. Pro spojení do jedné souvislé tabulky datové úseky po extrakci zkopírujte a vložte.
  • Naskenovaná PDF. Stejné omezení jako u jakékoliv extrakce textu: pokud je stránka obrázek (naskenovaný výpis, vyfocená účtenka), není co číst. Nejdřív skrz OCR v jiném nástroji.

Co dostanete na konci

Jeden .xlsx. Každá stránka PDF se stane vlastním listem se jménem Page 1, Page 2 atd. Otevře se v Excelu, Numbers, Google Sheets, LibreOffice — kdekoliv. Buňky jsou prosté hodnoty; bez formátování, vzorců, stylů. Smysl je, že čísla jsou teď čísla a sloupce jsou sloupce.

Pokud chcete CSV místo xlsx, uložte list jako CSV ve svém tabulkovém procesoru — je to jedno menu daleko.

Praktické poznámky

  1. Jestli má PDF heslo, nejdřív přes unlock-pdf. Šifrované PDF nelze otevřít pro extrakci buněk.
  2. U velmi širokých tabulek pomáhá zdrojové PDF před extrakcí otočit na šířku — méně sloupců, čistší mezery. Otočení dělá edit-pdf.
  3. Jestli potřebujete jen text bez struktury, pdf-to-txt je rychlejší a výsledek se snáz přesází.
  4. Opačná operace — vložit list Excelu do PDF — je excel-to-pdf.

Co se stane s vaším souborem

Extrakce běží ve vašem prohlížeči. Otevřete DevTools a sledujte záložku Network během operace — žádné odchozí požadavky s obsahem souboru. PDF zůstává na disku; .xlsx je nový soubor ke stažení vedle něj.

FAQ

Časté dotazy

Nahrává se moje PDF?

Ne. Detekce i parsing probíhají zcela v prohlížeči. Soubor neopouští vaše zařízení.

Funguje i na skenovaných PDF (OCR)?

Skenované tabulky potřebují OCR, aby se staly editovatelnými buňkami. PDF s textem (s vybratelným textem) se extrahují přímo.

Jak přesná je detekce tabulek?

Tabulky s čarami a dobře rozmístěné mřížky se extrahují čistě. Sloučené buňky a tabulky bez rámečků mohou vyžadovat ruční kontrolu.

Mohu vybrat konkrétní stránky?

Ano. Vyberte rozsah stránek, abyste extrahovali tabulky jen z těch, které potřebujete.