Wyodrębnij tekst z dowolnego PDF,
w Twojej przeglądarce.
Pobierz czystą warstwę tekstową z dowolnego PDF — z zachowanymi akapitami, wieloma stronami, w UTF-8. Wyodrębnianie odbywa się wewnątrz przeglądarki, więc plik nigdy nie opuszcza Twojego urządzenia.
Sprawdź sam: otwórz DevTools → zakładkę Network → upuść plik. Zobacz, że nie ma żadnych przesłań.
Trzy kroki. Twój PDF nigdy nie opuszcza tej karty.
Upuść swój PDF
Wybierz plik, z którego chcesz wyodrębnić tekst. Wczytuje się do pamięci przeglądarki, nie na serwer.
Czytamy warstwę tekstową
pdf.js przechodzi przez każdą stronę, sortuje elementy po współrzędnej Y i odtwarza podziały akapitów we właściwych miejscach.
Skopiuj lub pobierz .txt
Otrzymasz czysty tekst UTF-8. Skopiuj do schowka lub zapisz jako .txt — Twój wybór.
Gdy chcesz tekst, a nie PDF
Powody, by wyciągnąć tekst z PDF-a, niemal zawsze sprowadzają się do tego samego: dostać słowa tam, gdzie PDF nie wchodzi. Chcesz wkleić cytat do maila bez wlókówania PDF-a jako załącznika. Karmisz długim dokumentem asystenta AI, który przyjmuje tylko plain text. Chcesz grepnąć 200-stronicowy raport w poszukiwaniu jednej frazy, a wyszukiwarka czytnika coś chowa. Tłumaczysz umowę i narzędzie tłumaczeniowe chce źródło jako plik płaski. Przenosisz gotowy skład z PDF-a z powrotem do edytora. We wszystkich tych przypadkach przeszkadza opakowanie — słowa są w porządku, tylko siedzą w składzie, który trudno poskładać z powrotem.
Wyjście tutaj to dokładnie to: plain text, jeden duży .txt, w tej samej kolejności, w której czyta się PDF. Bez formatowania, czcionek, obrazów i tabel-jako-tabel. Zadanie: wyzwolić słowa.
Co naprawdę robi „ekstrakcja"
W PDF-ie są dwa rodzaje „tekstu". Prawdziwy tekst — znaki rysowane czcionkami, które PDF oznacza jako litery — leży w warstwie tekstowej. Tę warstwę narzędzie czyta wprost. Drugi rodzaj to tekst istniejący jedynie jako piksele: cokolwiek zeskanowanego, sfotografowanego lub zrzutowego, zanim trafiło do PDF-a. Te znaki to obrazy liter, nie litery, i żaden ekstraktor nie zobaczy ich jako tekstu bez OCR. Tutaj kroku OCR nie ma.
Dwa szybkie testy powiedzą, jaki masz PDF. Otwórz go w dowolnym czytniku, kliknij i przeciągnij myszką po akapicie: jeśli tekst zaznacza się czysto, jest warstwa tekstowa i ekstrakcja zadziała. Gdy kursor rysuje prostokąt i nic się nie zaznacza, strona jest obrazem i najpierw trzeba przepuścić ją przez OCR (w innym narzędziu), żeby ekstraktor miał co czytać.
Jak powstają złamania linii i akapity
PDF nie pamięta akapitów. Wewnątrz strona to worek fragmentów tekstu z pozycjami i nigdzie żadnej metadanej „tu koniec akapitu". Sensowny plain text bez podziałów nie istnieje, więc narzędzie wnioskuje je z odstępów pionowych: mały odstęp między wierszami staje się pojedynczym złamaniem, większy odstęp (jaki projektanci wstawiają między akapity) — pustą linią. Typowe przypadki działają: tekst zasadniczy, nagłówki, listy. Jeśli projektant użył nietypowych odstępów do innych celów, narzędzie tego nie odgadnie i takie miejsca mogą wymagać lekkiej ręcznej korekty.
Strony są w wyjściu rozdzielone pustą linią. Jeśli w ogóle nie chcesz oddzielaczy stron, zamień podwójne złamania na pojedyncze przez znajdź-i-zamień.
Co nie przeżyje ekstrakcji
- Pogrubienie, kursywa, czcionki, kolor, wyrównanie. Plain text jest płaski. Jeśli musisz zachować formatowanie, zobacz pdf-to-word.
- Tabele. Komórki stają się plain textem w kolejności czytania — zwykle wiersz po wierszu, często z niewygodnymi odstępami. Tabele, które mają pozostać tabelami, należą do pdf-to-excel.
- Obrazy i diagramy. Cokolwiek nie było w PDF-ie tekstem, w tekście się nie pojawi. Aby wyciągnąć obrazy osobno, zobacz pdf-to-jpg.
- Nagłówki i stopki. Jeśli oryginał powtarzał „Poufne — str. X z Y" na każdej stronie, wyjście będzie wyglądać tak samo. Znajdź-i-zamień usuwa je w sekundach.
- Słowa przerwane łącznikiem przez koniec linii. Słowo rozłamane łącznikiem wyjdzie jako
coś-\nśzamiastcośś. Jeśli to ma znaczenie dla dalszego wyszukiwania albo sprawdzania pisowni, regex-\n→ puste naprawia. - Układy wielokolumnowe mogą się przeplatać. Dwukolumnowy artykuł naukowy może wyjść z naprzemiennymi zdaniami z lewej i prawej kolumny. Dokumenty jednokolumnowe — większość raportów, umów, książek — to nie dotyczy. Gdy wynik z przemieszanymi kolumnami jest nieużywalny, czystsze jest otworzyć PDF w narzędziu szanującym kolejność kolumn i ponownie wyciągnąć tekst.
Kilka praktycznych uwag
- Jeśli PDF jest zabezpieczony hasłem, najpierw przez unlock-pdf. Zaszyfrowanego PDF-a nie da się otworzyć do ekstrakcji tekstu.
- Dla bardzo dużych PDF-ów (setki MB, tysiące stron) ekstrakcja i tak idzie w przeglądarce. Na desktopie rzadko stanowi to problem; na telefonie z 500-stronicowym skanem upiera się o pamięć. W takiej sytuacji desktop.
- Wyjście to UTF-8. Cyrylica, greka, arabski, chiński, łacina z diakrytyką przechodzą czysto, jeśli w PDF-ie były zapisane jako prawdziwy tekst. PDF-y, w których znaki nie-łacińskie były rysowane jako osadzone subsetowe glify bez właściwego kodowania, w ekstrakcji dają śmieci — to problem samego PDF-a, nie ekstraktora. Naprawia się po stronie źródła: ponowny eksport z poprawnym kodowaniem Unicode.
- Wzorzec nazwy. Plik
contract.pdfpobiera się jakocontract.txt. PDF na dysku zostaje na swoim miejscu.
Co dzieje się z twoim plikiem
Ekstrakcja działa w twojej przeglądarce. Otwórz DevTools i obserwuj kartę Network podczas operacji — żadnych wychodzących żądań z zawartością pliku. PDF zostaje na dysku; .txt to nowe pobranie obok.
Najczęstsze pytania
Jak działa wyodrębnianie?
Używamy pdf.js od Mozilli, aby strona po stronie odczytać osadzoną warstwę tekstową PDF. Elementy są grupowane według współrzędnej Y, dzięki czemu podziały akapitów są zachowane — bez serwera, bez wysyłania.
Czy działa na zeskanowanych PDF?
Nie. Skany to obrazy tekstu, a nie tekst — ich wyodrębnienie wymaga OCR, którego to narzędzie nie uruchamia. Jeśli Twój PDF powstał ze skanu papieru, najpierw skorzystaj z narzędzia OCR.
Czy mój plik jest gdzieś wysyłany?
Nigdy. Wyodrębnianie odbywa się w całości w Twojej przeglądarce dzięki WebAssembly — możesz to sprawdzić w DevTools → Sieć. Plik pozostaje na Twoim urządzeniu.
A pliki PDF chronione hasłem?
Najpierw odblokuj PDF naszym narzędziem Odblokuj PDF, a następnie wyodrębnij tekst. Zaszyfrowane strumienie treści nie mogą być parsowane bez hasła.
Jaki jest limit rozmiaru pliku?
Do 100 MB. Większe pliki mogą wyczerpać pamięć przeglądarki — najpierw podziel je narzędziem Podziel PDF.