PDF til tekst

Udtræk tekst fra enhver PDF,
i din browser.

Træk et rent tekstlag ud af enhver PDF — afsnit bevaret, flere sider, UTF-8. Udtrækningen kører inde i din browser, så filen forlader aldrig din enhed.

Slip den PDF, du vil udtrække tekst fra
Vi læser det indlejrede tekstlag med pdf.js — ingen OCR, ingen server.

Bekræft selv: åbn DevTools → Network-fanen → slip en fil. Se, at der sker nul uploads.

Flere sider · UTF-8-output Scannede PDF'er kræver OCR — dette værktøj læser kun tekstlaget
Gratis
Ingen tilmelding
Ingen upload
UTF-8-output
SÅDAN VIRKER DET

Tre trin. Din PDF forlader aldrig denne fane.

1

Slip din PDF

Vælg den fil, du vil udtrække tekst fra. Den indlæses i browserens hukommelse, ikke på en server.

2

Vi læser tekstlaget

pdf.js gennemgår hver side, sorterer elementer efter Y-koordinat og genskaber afsnitsbrud, hvor de hører hjemme.

3

Kopiér eller download .txt

Få ren UTF-8-tekst. Kopiér til udklipsholder eller gem som .txt — du bestemmer.

Når du vil have teksten og ikke PDF'en

Grundene til at trække teksten ud af en PDF drejer sig næsten altid om det samme: at få ordene hen, hvor PDF'en ikke kommer ind. Du vil indsætte et citat i en mail uden at slæbe PDF'en med som vedhæftning. Du fodrer en lang tekst til en AI-assistent, som kun tager almindelig tekst. Du vil greppe en 200-siders rapport efter en sætning, og læserens søgning gemmer noget. Du oversætter en kontrakt, og oversættelsesværktøjet vil have kilden som flad fil. Du henter et færdigsat manuskript fra en PDF tilbage til en teksteditor. I alle disse tilfælde er det indpakningen, der står i vejen — ordene er fine, de sidder bare i et layout, der er svært at samle igen.

Output her er præcis det: almindelig tekst, én stor .txt-fil, i samme rækkefølge, som PDF'en læses i. Ingen formatering, ingen skrifter, ingen billeder, ingen tabeller-som-tabeller. Opgaven er at frigøre ordene.

Hvad „udtrækning" faktisk gør

En PDF rummer to slags „tekst". Ægte tekst — tegn tegnet med skrifter, som PDF'en markerer som bogstaver — ligger i et tekstlag. Det lag læser værktøjet direkte. Den anden slags er tekst, der kun findes som pixels: alt scannet, fotograferet eller skærmbilledet, før det blev lagt i PDF'en. De tegn er billeder af bogstaver, ikke bogstaver, og ingen udtrækker ser dem som tekst uden OCR. Der er intet OCR-trin her.

To hurtige tjek viser, hvilken slags PDF du har. Åbn den i en hvilken som helst læser, klik og træk hen over et afsnit: hvis teksten markeres rent, er der et tekstlag, og udtrækningen virker. Hvis markøren tegner et rektangel og intet markeres, er siden et billede, og du skal først køre den gennem OCR (i et andet værktøj), før udtrækkeren har noget at læse.

Sådan bliver linjeskift og afsnit

PDF'er gemmer ikke afsnit. Indvendigt er en side en pose tekstfragmenter med positioner — ingen metadata, der siger „her slutter afsnittet". Læselig almindelig tekst uden brud findes ikke, så værktøjet udleder dem af de lodrette mellemrum: lille afstand mellem linjer bliver til ét linjeskift, større afstand (den slags designere lader stå mellem afsnit) bliver til en tom linje. De almindelige tilfælde sidder: brødtekst, overskrifter, lister. Hvis designeren har brugt usædvanlige mellemrum til andet, kan værktøjet ikke gætte det, og de steder kan kræve let efterredigering.

Sider er i output adskilt af en tom linje. Hvis du slet ikke vil have sideadskillere, fjerner et søg-og-erstat af det dobbelte linjeskift med et enkelt dem.

Hvad der ikke overlever udtrækningen

  • Fed, kursiv, skrifter, farve, justering. Almindelig tekst er flad. Hvis du skal bevare formatering, se pdf-to-word.
  • Tabeller. Celler bliver til almindelig tekst i læserækkefølge — som regel række for række, ofte med kluntet mellemrumsstilling. Tabeller, der skal forblive tabeller, hører til pdf-to-excel.
  • Billeder og diagrammer. Det, der i PDF'en ikke var tekst, dukker ikke op i teksten. For at trække billeder ud separat, se pdf-to-jpg.
  • Sidehoveder og -fødder. Hvis originalen gentog „Fortroligt — side X af Y" på hver side, gør den udtrukne tekst det samme. Et søg-og-erstat fjerner dem på sekunder.
  • Ord delt med bindestreg over linjeskift. Et ord brækket af bindestreg kommer ud som noget-\nting i stedet for noget-ting. Hvis det betyder noget for senere søgning eller stavekontrol, ordner et regex -\n → tom det.
  • Layouts med flere spalter kan blive blandet. En forskningsartikel i to spalter kan komme ud med sætninger fra venstre og højre spalte i flæng. Etspaltede dokumenter — de fleste rapporter, kontrakter, bøger — er ikke berørt. Hvis et blandet resultat er ubrugeligt, er det renere at åbne PDF'en i et værktøj, der respekterer spalterækkefølgen, før der trækkes ud igen.

Et par praktiske noter

  1. Hvis PDF'en er adgangskodebeskyttet, kør den først gennem unlock-pdf. Krypterede PDF'er kan ikke åbnes til tekstudtræk.
  2. For meget store PDF'er (hundredvis af MB, tusindvis af sider) kører udtrækningen alligevel i din browser. På desktop er det sjældent et problem; på en telefon med en 500-siders scanning er browserens hukommelse loftet. I så fald: desktop.
  3. Output er UTF-8. Kyrillisk, græsk, arabisk, kinesisk, latin med diakritika kommer rent igennem, hvis PDF'en gemte dem som ægte tekst. PDF'er, der tegnede ikke-latinske tegn som indlejrede subset-glyffer uden korrekt kodning, giver volapyk ved udtræk — det er et problem i PDF'en, ikke i udtrækkeren. Det fixes ved kilden: eksportér igen med korrekt Unicode-kodning.
  4. Filnavnsmønster. En fil contract.pdf downloades som contract.txt. PDF'en på disken bliver, hvor den er.

Hvad sker der med din fil

Udtrækningen kører i din browser. Åbn DevTools og se Network-fanen under operationen — ingen udgående forespørgsler med filindhold. PDF'en bliver på disken; .txt er en ny download ved siden af.

FAQ

Ofte stillede spørgsmål

Hvordan fungerer udtrækningen?

Vi bruger Mozillas pdf.js til at læse det indlejrede tekstlag i din PDF side for side. Elementer grupperes efter Y-koordinat, så afsnitsbrud overlever — ingen server, ingen upload.

Virker det på scannede PDF'er?

Nej. Scanninger er billeder af tekst, ikke tekst — udtrækning kræver OCR, som dette værktøj ikke kører. Hvis din PDF stammer fra scannet papir, har du brug for et OCR-værktøj først.

Bliver min fil uploadet et sted?

Aldrig. Udtrækningen kører helt i din browser via WebAssembly — kan verificeres i DevTools → Network. Filen forbliver på din enhed.

Hvad med adgangskodebeskyttede PDF'er?

Lås PDF'en op først med vores værktøj Lås PDF op, og udtræk derefter. Krypterede indholdsstrømme kan ikke parses uden adgangskoden.

Hvad er filstørrelsesgrænsen?

Op til 100 MB. Større filer kan tømme browserens hukommelse — prøv først at opdele dem med Opdel PDF.