Wyodrębnij tekst z dowolnego PDF,
w Twojej przeglądarce.
Pobierz czystą warstwę tekstową z dowolnego PDF — z zachowanymi akapitami, wieloma stronami, w UTF-8. Wyodrębnianie odbywa się wewnątrz przeglądarki, więc plik nigdy nie opuszcza Twojego urządzenia.
Trzy kroki. Twój PDF nigdy nie opuszcza tej karty.
Upuść swój PDF
Wybierz plik, z którego chcesz wyodrębnić tekst. Wczytuje się do pamięci przeglądarki, nie na serwer.
Czytamy warstwę tekstową
pdf.js przechodzi przez każdą stronę, sortuje elementy po współrzędnej Y i odtwarza podziały akapitów we właściwych miejscach.
Skopiuj lub pobierz .txt
Otrzymasz czysty tekst UTF-8. Skopiuj do schowka lub zapisz jako .txt — Twój wybór.
Najczęstsze pytania
Jak działa wyodrębnianie?
Używamy pdf.js od Mozilli, aby strona po stronie odczytać osadzoną warstwę tekstową PDF. Elementy są grupowane według współrzędnej Y, dzięki czemu podziały akapitów są zachowane — bez serwera, bez wysyłania.
Czy działa na zeskanowanych PDF?
Nie. Skany to obrazy tekstu, a nie tekst — ich wyodrębnienie wymaga OCR, którego to narzędzie nie uruchamia. Jeśli Twój PDF powstał ze skanu papieru, najpierw skorzystaj z narzędzia OCR.
Czy mój plik jest gdzieś wysyłany?
Nigdy. Wyodrębnianie odbywa się w całości w Twojej przeglądarce dzięki WebAssembly — możesz to sprawdzić w DevTools → Sieć. Plik pozostaje na Twoim urządzeniu.
A pliki PDF chronione hasłem?
Najpierw odblokuj PDF naszym narzędziem Odblokuj PDF, a następnie wyodrębnij tekst. Zaszyfrowane strumienie treści nie mogą być parsowane bez hasła.
Jaki jest limit rozmiaru pliku?
Do 100 MB. Większe pliki mogą wyczerpać pamięć przeglądarki — najpierw podziel je narzędziem Podziel PDF.