PDF szövegbe

Szöveg kinyerése bármely PDF-ből,
a böngészőben.

Tiszta szövegréteg kinyerése bármely PDF-ből — bekezdések megőrizve, többoldalas, UTF-8. A kinyerés a böngészőjén belül fut, így a fájl soha nem hagyja el az eszközét.

Húzza ide a PDF-et, amelyből szöveget szeretne kinyerni
Beolvassuk a beágyazott szövegréteget pdf.js-szel — nincs OCR, nincs szerver.

Győződjön meg róla: nyissa meg a DevTools → Network fület → dobjon be egy fájlt. Nézze, ahogy nulla feltöltés történik.

Többoldalas · UTF-8 kimenet A szkennelt PDF-eknek OCR szükséges — ez csak szövegréteg
Ingyenes
Regisztráció nélkül
Feltöltés nélkül
UTF-8 kimenet
HOGYAN MŰKÖDIK

Három lépés. A PDF-je soha nem hagyja el ezt a lapot.

1

Húzza ide a PDF-et

Válassza ki a fájlt, amelyből szöveget szeretne kinyerni. Betöltődik a böngésző memóriájába, nem szerverre.

2

Beolvassuk a szövegréteget

A pdf.js végigmegy minden oldalon, Y-koordináta szerint rendezi az elemeket, és újraépíti a bekezdéstöréseket ott, ahol kell.

3

Másolás vagy .txt letöltés

Kapjon tiszta UTF-8 sima szöveget. Másolja a vágólapra, vagy mentse el .txt fájlként — Önön múlik.

Amikor a szöveget akarod, nem a PDF-et

A szöveg PDF-ből való kinyerésének okai szinte mindig egy körül forognak: a szavakat oda juttatni, ahova a PDF nem fér be. Idézetet akarsz beilleszteni egy e-mailbe anélkül, hogy a PDF-et csatolmányként cipelnéd. Egy hosszú dokumentumot adsz egy AI-asszisztensnek, amely csak sima szöveget fogad el. Egy 200 oldalas jelentést akarsz greppelni egy kifejezésre, és az olvasó keresése elrejt valamit. Szerződést fordítasz, és a fordítóeszköz lapos fájlként kéri a forrást. Egy kész, tördelt kéziratot húzol vissza PDF-ből egy szövegszerkesztőbe. Mindezekben az esetekben a burkolat áll útban — a szavak rendben vannak, csak benne ülnek egy elrendezésben, amit nehéz újra összerakni.

A kimenet itt pontosan ez: sima szöveg, egy nagy .txt fájl, ugyanabban a sorrendben, ahogy a PDF olvasható. Nincs formázás, nincsenek betűtípusok, nincsenek képek, nincsenek táblázatok-mint-táblázatok. A feladat: kiszabadítani a szavakat.

Mit tesz valójában a „kinyerés"

A PDF kétféle „szöveget" tárol. A valódi szöveg — betűtípusokkal rajzolt karakterek, amelyeket a PDF betűként jelöl — egy szövegrétegben él. Ezt a réteget az eszköz közvetlenül olvassa. A másik fajta csak pixelként létező szöveg: minden szkennelt, fényképezett vagy képernyőképként készült anyag, mielőtt a PDF-be kerül. Ezek a karakterek betűk képei, nem betűk, és OCR nélkül semmilyen kinyerő nem látja őket szövegként. Itt nincs OCR-lépés.

Két gyors ellenőrzés megmondja, melyik PDF-ed van. Nyisd meg bármilyen olvasóban, kattints és húzz végig egy bekezdésen: ha a szöveg tisztán kijelölhető, van szövegréteg, és a kinyerés működni fog. Ha a kurzor téglalapot rajzol és semmi sem jelölődik ki, az oldal kép, és először OCR-en kell átengedned (másik eszközben), hogy a kinyerőnek legyen mit olvasnia.

Hogyan jönnek ki a sortörések és bekezdések

A PDF nem tárol bekezdéseket. Belül egy oldal pozíciókkal ellátott szövegtöredékek halmaza — sehol nincs metaadat, hogy „itt vége a bekezdésnek". Olvasható sima szöveg törések nélkül nem létezik, így az eszköz a függőleges távolságokból következtet rájuk: a sorok közti kis hézag egyetlen sortöréssé válik, a nagyobb hézag (amilyet a tervezők bekezdések közé hagynak) üres sorrá. A szokásos esetek jól sikerülnek: kenyérszöveg, címek, listák. Ha a tervező szokatlan távolságokat használt másra, az eszköz nem tudja kitalálni, és ezek a helyek könnyű utószerkesztést kívánhatnak.

A kimenetben az oldalakat üres sor választja el. Ha egyáltalán nem akarsz oldalelválasztókat, a dupla sortörés egyszerűre cserélése „keresés és csere" segítségével eltávolítja őket.

Mi nem éli túl a kinyerést

  • Félkövér, dőlt, betűtípusok, szín, igazítás. A sima szöveg lapos. Ha formázást kell megőrizni, lásd pdf-to-word.
  • Táblázatok. A cellák olvasási sorrendben sima szöveggé válnak — általában sorról sorra, gyakran kényelmetlen térközökkel. A táblázatoknak, amelyeknek táblázatként kell megmaradniuk, helyük a pdf-to-excel.
  • Képek és diagramok. Ami a PDF-ben nem volt szöveg, nem jelenik meg a szövegben. A képek külön kinyeréséhez lásd pdf-to-jpg.
  • Fej- és láblécek. Ha az eredeti minden oldalon ismételte: „Bizalmas — X. oldal Y-ból", a kinyert szöveg ugyanúgy. Egy „keresés és csere" másodpercek alatt eltávolítja.
  • Sortörésnél kötőjellel elválasztott szavak. A kötőjellel megtört szó vala-\nmi formában jön ki, nem valami. Ha ez számít a későbbi keresésnek vagy helyesírás-ellenőrzésnek, egy -\n → üres regex megoldja.
  • A többhasábos elrendezések összekeveredhetnek. Egy kéthasábos tudományos cikk a bal és jobb hasáb mondatainak váltakozásával jöhet ki. Az egyhasábos dokumentumok — a legtöbb jelentés, szerződés, könyv — érintetlenek. Ha az összekevert eredmény használhatatlan, tisztább a PDF-et oszloprendet tisztelő eszközben megnyitni az újrakinyerés előtt.

Néhány gyakorlati megjegyzés

  1. Ha a PDF jelszóval védett, először engedd át unlock-pdf-en. A titkosított PDF-eket nem lehet megnyitni szövegkinyeréshez.
  2. Nagyon nagy PDF-ek (több száz MB, több ezer oldal) esetén a kinyerés még mindig a böngésződben fut. Asztali gépen ritkán probléma; egy 500 oldalas szkennel telefonon a böngésző memóriája a plafon. Ilyenkor: asztali gép.
  3. A kimenet UTF-8. A cirill, görög, arab, kínai, ékezetes latin tisztán átjut, ha a PDF valódi szövegként tárolta. Azok a PDF-ek, amelyek nem latin karaktereket beágyazott subset-glífekként rajzoltak helyes kódolás nélkül, kinyeréskor olvashatatlan szemetet adnak — ez magának a PDF-nek a problémája, nem a kinyerőé. A javítás a forrás oldalán: helyes Unicode kódolással újraexportálni.
  4. Fájlnévminta. A contract.pdf fájl contract.txt néven töltődik le. A lemezen lévő PDF a helyén marad.

Mi történik a fájloddal

A kinyerés a böngésződben fut. Nyisd meg a DevTools-t és figyeld a Network fület a művelet közben — nincs kimenő kérés a fájl tartalmával. A PDF a lemezen marad; a .txt új letöltés mellette.

GYIK

Gyakori kérdések

Hogyan működik a kinyerés?

A Mozilla pdf.js-ét használjuk a PDF beágyazott szövegrétegének olvasására oldalanként. Az elemek Y-koordinátájuk szerint csoportosítódnak, így a bekezdéstörések megmaradnak — nincs szerver, nincs feltöltés.

Működik szkennelt PDF-eken?

Nem. A szkennelések szöveg képei, nem szöveg — kinyerésükhöz OCR szükséges, amit ez az eszköz nem futtat. Ha a PDF-jét papír szkennelésével készítették, először OCR-eszközre lesz szüksége.

Feltöltődik a fájlom valahova?

Soha. A kinyerés teljes egészében a böngészőjében fut WebAssembly-vel — ellenőrizhető a DevTools → Network ablakban. A fájl az eszközén marad.

Mi a helyzet a jelszóval védett PDF-ekkel?

Először oldja fel a PDF-et a PDF Feloldása eszközünkkel, majd nyerjen ki. A titkosított tartalomstreamek nem elemezhetők jelszó nélkül.

Mi a fájlméret-korlát?

Akár 100 MB. Ennél nagyobbat a böngésző memóriája kimeríthet — próbálja meg először szétválasztani a PDF Szétválasztása eszközzel.