Szöveg kinyerése bármely PDF-ből,
a böngészőben.
Tiszta szövegréteg kinyerése bármely PDF-ből — bekezdések megőrizve, többoldalas, UTF-8. A kinyerés a böngészőjén belül fut, így a fájl soha nem hagyja el az eszközét.
Győződjön meg róla: nyissa meg a DevTools → Network fület → dobjon be egy fájlt. Nézze, ahogy nulla feltöltés történik.
Három lépés. A PDF-je soha nem hagyja el ezt a lapot.
Húzza ide a PDF-et
Válassza ki a fájlt, amelyből szöveget szeretne kinyerni. Betöltődik a böngésző memóriájába, nem szerverre.
Beolvassuk a szövegréteget
A pdf.js végigmegy minden oldalon, Y-koordináta szerint rendezi az elemeket, és újraépíti a bekezdéstöréseket ott, ahol kell.
Másolás vagy .txt letöltés
Kapjon tiszta UTF-8 sima szöveget. Másolja a vágólapra, vagy mentse el .txt fájlként — Önön múlik.
Gyakori kérdések
Hogyan működik a kinyerés?
A Mozilla pdf.js-ét használjuk a PDF beágyazott szövegrétegének olvasására oldalanként. Az elemek Y-koordinátájuk szerint csoportosítódnak, így a bekezdéstörések megmaradnak — nincs szerver, nincs feltöltés.
Működik szkennelt PDF-eken?
Nem. A szkennelések szöveg képei, nem szöveg — kinyerésükhöz OCR szükséges, amit ez az eszköz nem futtat. Ha a PDF-jét papír szkennelésével készítették, először OCR-eszközre lesz szüksége.
Feltöltődik a fájlom valahova?
Soha. A kinyerés teljes egészében a böngészőjében fut WebAssembly-vel — ellenőrizhető a DevTools → Network ablakban. A fájl az eszközén marad.
Mi a helyzet a jelszóval védett PDF-ekkel?
Először oldja fel a PDF-et a PDF Feloldása eszközünkkel, majd nyerjen ki. A titkosított tartalomstreamek nem elemezhetők jelszó nélkül.
Mi a fájlméret-korlát?
Akár 100 MB. Ennél nagyobbat a böngésző memóriája kimeríthet — próbálja meg először szétválasztani a PDF Szétválasztása eszközzel.