Získejte text z libovolného PDF,
ve svém prohlížeči.
Vytáhněte čistou textovou vrstvu z jakéhokoli PDF — odstavce zachovány, více stránek, UTF-8. Extrakce běží uvnitř vašeho prohlížeče, takže soubor neopustí vaše zařízení.
Ověřte si sami: otevřete DevTools → záložku Network → přetáhněte soubor. Sledujte, jak neproběhne žádné nahrání.
Tři kroky. Vaše PDF nikdy neopustí tuto kartu.
Přetáhněte PDF
Vyberte soubor, ze kterého chcete získat text. Načte se do paměti prohlížeče, ne na server.
Načteme textovou vrstvu
pdf.js prochází každou stránku, řadí položky podle souřadnice Y a obnovuje přerušení odstavců tam, kam patří.
Zkopírujte nebo stáhněte .txt
Získejte čistý text v UTF-8. Zkopírujte do schránky nebo uložte jako .txt — záleží na vás.
Když chcete text, ne PDF
Důvody pro vytažení textu z PDF se skoro vždy točí kolem jedné věci: dostat slova tam, kam PDF nepustí. Chcete vložit citát do e-mailu, aniž byste tahali PDF jako přílohu. Krmíte dlouhým dokumentem AI asistenta, který bere jen plain text. Chcete grepnout 200stránkovou zprávu na jednu frázi a vyhledávání ve čtečce vám něco schovává. Překládáte smlouvu a překladový nástroj chce zdroj jako plochý soubor. Stěhujete hotovou sazbu z PDF zpátky do editoru. Ve všech těchto případech překáží obal — slova jsou v pořádku, jen sedí v sazbě, kterou je těžké poskládat zpět.
Výstup je tu přesně to: plain text, jeden velký .txt, ve stejném pořadí, v jakém PDF čte. Bez formátování, písem, obrázků a tabulek-jako-tabulek. Úkolem je osvobodit slova.
Co „extrakce" doopravdy dělá
V PDF jsou dva druhy „textu". Skutečný text — znaky kreslené písmy, které PDF označuje jako písmena — leží v textové vrstvě. Tu nástroj čte přímo. Druhý druh je text, který existuje jen jako pixely: cokoliv naskenovaného, vyfoceného nebo zachyceného jako screenshot, než to skončilo v PDF. Tyto znaky jsou obrázky písmen, ne písmena, a žádný extraktor je bez OCR jako text neuvidí. Krok OCR tu není.
Dvě rychlé zkoušky vám řeknou, jaké PDF máte. Otevřete ho v libovolné čtečce, klikněte a táhněte přes odstavec: jestli se text čistě označí, textová vrstva je tam a extrakce zabere. Když kurzor kreslí obdélník a nic se neoznačí, stránka je obrázek a nejdřív je třeba projet OCR (jiným nástrojem), aby měl extraktor co číst.
Jak vznikají zalomení a odstavce
PDF si odstavce nepamatuje. Uvnitř je stránka pytel textových úryvků s pozicemi a nikde žádný údaj „tady končí odstavec". Smysluplný plain text bez zalomení neexistuje, takže nástroj je odvozuje ze svislých mezer: malá mezera mezi řádky se promítne jako jedno zalomení, velká mezera (jakou návrháři dávají mezi odstavce) jako prázdný řádek. Běžné případy fungují: tělo, nadpisy, seznamy. Jestli návrhář použil neobvyklé rozestupy pro něco jiného, nástroj to neuhodne, a taková místa můžou chtít drobnou ruční úpravu.
Stránky jsou ve výstupu odděleny prázdným řádkem. Jestli oddělovače stránek vůbec nechcete, najít-a-nahradit dvojitý prázdný řádek za jeden ho odstraní.
Co extrakci nepřežije
- Tučné, kurzíva, písma, barva, zarovnání. Plain text je plochý. Pokud potřebujete formátování zachovat, viz pdf-to-word.
- Tabulky. Buňky se promění v plain text v pořadí čtení — obvykle řádek po řádku, často s podivným odsazením. Tabulky, které mají zůstat tabulkami, patří do pdf-to-excel.
- Obrázky a diagramy. Cokoliv, co v PDF nebylo text, se v textu neobjeví. Pro vytažení obrázků zvlášť viz pdf-to-jpg.
- Záhlaví a zápatí. Když originál opakoval „Důvěrné — strana X z Y" na každé stránce, ve výstupu to bude taky. Najít-a-nahradit to vyřeší za sekundy.
- Slova přerušená spojovníkem přes konec řádku. Slovo rozdělené spojovníkem vyjde jako
něco-\ncomístoněcoco. Pokud na tom záleží pro hledání nebo kontrolu pravopisu, regex-\n→ prázdno to spraví. - Vícesloupcové sazby se můžou prokládat. Dvousloupcová odborná stať může vyjít s větami z levého a pravého sloupce střídavě. Jednosloupcové dokumenty — většina zpráv, smluv, knih — to nepostihuje. Když je výsledek s prokládáním nepoužitelný, čistší je otevřít PDF v nástroji respektujícím pořadí sloupců a extrakci spustit znovu.
Pár praktických poznámek
- Pokud je PDF chráněné heslem, nejdřív přes unlock-pdf. Šifrované PDF nelze otevřít pro extrakci textu.
- U velmi velkých PDF (stovky MB, tisíce stran) extrakce běží stejně v prohlížeči. Na desktopu to bývá málokdy problém; na telefonu s 500stránkovým skenem to naráží na paměť. V tom případě desktop.
- Výstup je UTF-8. Cyrilice, řečtina, arabština, čínština, latina s diakritikou projdou čistě, pokud v PDF byly uloženy jako skutečný text. PDF, která nelatinkové znaky kreslila jako vložené subset glyphy bez správného kódování, při extrakci dávají blábol — to je problém samotného PDF, ne extraktoru. Léčí se na zdroji: znovu vyexportovat se správným Unicode kódováním.
- Vzor jména souboru. Soubor
contract.pdfse stáhne jakocontract.txt. PDF na disku zůstává na místě.
Co se stane s vaším souborem
Extrakce běží ve vašem prohlížeči. Otevřete DevTools a sledujte záložku Network během operace — žádné odchozí požadavky s obsahem souboru. PDF zůstává na disku; .txt je nový soubor ke stažení vedle něj.
Časté dotazy
Jak extrakce funguje?
Používáme pdf.js od Mozilly k načtení vložené textové vrstvy vašeho PDF stránku po stránce. Položky se seskupí podle souřadnice Y, aby přerušení odstavců zůstalo zachované — bez serveru, bez nahrávání.
Funguje to na skenovaných PDF?
Ne. Skeny jsou obrázky textu, nikoli text — k jejich extrakci je třeba OCR, které tento nástroj nespouští. Pokud váš PDF vznikl skenováním papíru, potřebujete nejdříve nástroj OCR.
Posílá se můj soubor někam?
Nikdy. Extrakce běží zcela ve vašem prohlížeči přes WebAssembly — ověřitelné v DevTools → Network. Soubor zůstává ve vašem zařízení.
Co PDF chráněná heslem?
Nejdříve PDF odemkněte naším nástrojem Odemknout PDF, pak extrahujte. Šifrované obsahové proudy nelze bez hesla rozluštit.
Jaký je limit velikosti souboru?
Až 100 MB. Větší soubory mohou vyčerpat paměť prohlížeče — zkuste je nejprve rozdělit nástrojem Rozdělit PDF.