Szöveg kinyerése bármely PDF-ből,
a böngészőben.
Tiszta szövegréteg kinyerése bármely PDF-ből — bekezdések megőrizve, többoldalas, UTF-8. A kinyerés a böngészőjén belül fut, így a fájl soha nem hagyja el az eszközét.
Győződjön meg róla: nyissa meg a DevTools → Network fület → dobjon be egy fájlt. Nézze, ahogy nulla feltöltés történik.
Három lépés. A PDF-je soha nem hagyja el ezt a lapot.
Húzza ide a PDF-et
Válassza ki a fájlt, amelyből szöveget szeretne kinyerni. Betöltődik a böngésző memóriájába, nem szerverre.
Beolvassuk a szövegréteget
A pdf.js végigmegy minden oldalon, Y-koordináta szerint rendezi az elemeket, és újraépíti a bekezdéstöréseket ott, ahol kell.
Másolás vagy .txt letöltés
Kapjon tiszta UTF-8 sima szöveget. Másolja a vágólapra, vagy mentse el .txt fájlként — Önön múlik.
Amikor a szöveget akarod, nem a PDF-et
A szöveg PDF-ből való kinyerésének okai szinte mindig egy körül forognak: a szavakat oda juttatni, ahova a PDF nem fér be. Idézetet akarsz beilleszteni egy e-mailbe anélkül, hogy a PDF-et csatolmányként cipelnéd. Egy hosszú dokumentumot adsz egy AI-asszisztensnek, amely csak sima szöveget fogad el. Egy 200 oldalas jelentést akarsz greppelni egy kifejezésre, és az olvasó keresése elrejt valamit. Szerződést fordítasz, és a fordítóeszköz lapos fájlként kéri a forrást. Egy kész, tördelt kéziratot húzol vissza PDF-ből egy szövegszerkesztőbe. Mindezekben az esetekben a burkolat áll útban — a szavak rendben vannak, csak benne ülnek egy elrendezésben, amit nehéz újra összerakni.
A kimenet itt pontosan ez: sima szöveg, egy nagy .txt fájl, ugyanabban a sorrendben, ahogy a PDF olvasható. Nincs formázás, nincsenek betűtípusok, nincsenek képek, nincsenek táblázatok-mint-táblázatok. A feladat: kiszabadítani a szavakat.
Mit tesz valójában a „kinyerés"
A PDF kétféle „szöveget" tárol. A valódi szöveg — betűtípusokkal rajzolt karakterek, amelyeket a PDF betűként jelöl — egy szövegrétegben él. Ezt a réteget az eszköz közvetlenül olvassa. A másik fajta csak pixelként létező szöveg: minden szkennelt, fényképezett vagy képernyőképként készült anyag, mielőtt a PDF-be kerül. Ezek a karakterek betűk képei, nem betűk, és OCR nélkül semmilyen kinyerő nem látja őket szövegként. Itt nincs OCR-lépés.
Két gyors ellenőrzés megmondja, melyik PDF-ed van. Nyisd meg bármilyen olvasóban, kattints és húzz végig egy bekezdésen: ha a szöveg tisztán kijelölhető, van szövegréteg, és a kinyerés működni fog. Ha a kurzor téglalapot rajzol és semmi sem jelölődik ki, az oldal kép, és először OCR-en kell átengedned (másik eszközben), hogy a kinyerőnek legyen mit olvasnia.
Hogyan jönnek ki a sortörések és bekezdések
A PDF nem tárol bekezdéseket. Belül egy oldal pozíciókkal ellátott szövegtöredékek halmaza — sehol nincs metaadat, hogy „itt vége a bekezdésnek". Olvasható sima szöveg törések nélkül nem létezik, így az eszköz a függőleges távolságokból következtet rájuk: a sorok közti kis hézag egyetlen sortöréssé válik, a nagyobb hézag (amilyet a tervezők bekezdések közé hagynak) üres sorrá. A szokásos esetek jól sikerülnek: kenyérszöveg, címek, listák. Ha a tervező szokatlan távolságokat használt másra, az eszköz nem tudja kitalálni, és ezek a helyek könnyű utószerkesztést kívánhatnak.
A kimenetben az oldalakat üres sor választja el. Ha egyáltalán nem akarsz oldalelválasztókat, a dupla sortörés egyszerűre cserélése „keresés és csere" segítségével eltávolítja őket.
Mi nem éli túl a kinyerést
- Félkövér, dőlt, betűtípusok, szín, igazítás. A sima szöveg lapos. Ha formázást kell megőrizni, lásd pdf-to-word.
- Táblázatok. A cellák olvasási sorrendben sima szöveggé válnak — általában sorról sorra, gyakran kényelmetlen térközökkel. A táblázatoknak, amelyeknek táblázatként kell megmaradniuk, helyük a pdf-to-excel.
- Képek és diagramok. Ami a PDF-ben nem volt szöveg, nem jelenik meg a szövegben. A képek külön kinyeréséhez lásd pdf-to-jpg.
- Fej- és láblécek. Ha az eredeti minden oldalon ismételte: „Bizalmas — X. oldal Y-ból", a kinyert szöveg ugyanúgy. Egy „keresés és csere" másodpercek alatt eltávolítja.
- Sortörésnél kötőjellel elválasztott szavak. A kötőjellel megtört szó
vala-\nmiformában jön ki, nemvalami. Ha ez számít a későbbi keresésnek vagy helyesírás-ellenőrzésnek, egy-\n→ üres regex megoldja. - A többhasábos elrendezések összekeveredhetnek. Egy kéthasábos tudományos cikk a bal és jobb hasáb mondatainak váltakozásával jöhet ki. Az egyhasábos dokumentumok — a legtöbb jelentés, szerződés, könyv — érintetlenek. Ha az összekevert eredmény használhatatlan, tisztább a PDF-et oszloprendet tisztelő eszközben megnyitni az újrakinyerés előtt.
Néhány gyakorlati megjegyzés
- Ha a PDF jelszóval védett, először engedd át unlock-pdf-en. A titkosított PDF-eket nem lehet megnyitni szövegkinyeréshez.
- Nagyon nagy PDF-ek (több száz MB, több ezer oldal) esetén a kinyerés még mindig a böngésződben fut. Asztali gépen ritkán probléma; egy 500 oldalas szkennel telefonon a böngésző memóriája a plafon. Ilyenkor: asztali gép.
- A kimenet UTF-8. A cirill, görög, arab, kínai, ékezetes latin tisztán átjut, ha a PDF valódi szövegként tárolta. Azok a PDF-ek, amelyek nem latin karaktereket beágyazott subset-glífekként rajzoltak helyes kódolás nélkül, kinyeréskor olvashatatlan szemetet adnak — ez magának a PDF-nek a problémája, nem a kinyerőé. A javítás a forrás oldalán: helyes Unicode kódolással újraexportálni.
- Fájlnévminta. A
contract.pdffájlcontract.txtnéven töltődik le. A lemezen lévő PDF a helyén marad.
Mi történik a fájloddal
A kinyerés a böngésződben fut. Nyisd meg a DevTools-t és figyeld a Network fület a művelet közben — nincs kimenő kérés a fájl tartalmával. A PDF a lemezen marad; a .txt új letöltés mellette.
Gyakori kérdések
Hogyan működik a kinyerés?
A Mozilla pdf.js-ét használjuk a PDF beágyazott szövegrétegének olvasására oldalanként. Az elemek Y-koordinátájuk szerint csoportosítódnak, így a bekezdéstörések megmaradnak — nincs szerver, nincs feltöltés.
Működik szkennelt PDF-eken?
Nem. A szkennelések szöveg képei, nem szöveg — kinyerésükhöz OCR szükséges, amit ez az eszköz nem futtat. Ha a PDF-jét papír szkennelésével készítették, először OCR-eszközre lesz szüksége.
Feltöltődik a fájlom valahova?
Soha. A kinyerés teljes egészében a böngészőjében fut WebAssembly-vel — ellenőrizhető a DevTools → Network ablakban. A fájl az eszközén marad.
Mi a helyzet a jelszóval védett PDF-ekkel?
Először oldja fel a PDF-et a PDF Feloldása eszközünkkel, majd nyerjen ki. A titkosított tartalomstreamek nem elemezhetők jelszó nélkül.
Mi a fájlméret-korlát?
Akár 100 MB. Ennél nagyobbat a böngésző memóriája kimeríthet — próbálja meg először szétválasztani a PDF Szétválasztása eszközzel.