Extrahera text från valfri PDF,
i din webbläsare.
Dra ut ett rent textlager från valfri PDF — stycken bevaras, flera sidor, UTF-8. Extraktionen körs i din webbläsare så filen lämnar aldrig din enhet.
Kontrollera själv: öppna DevTools → fliken Network → släpp en fil. Se hur noll uppladdningar sker.
Tre steg. Din PDF lämnar aldrig den här fliken.
Släpp PDF-en här
Välj filen du vill extrahera text från. Den läses in i webbläsarens minne, inte en server.
Vi läser textlagret
pdf.js går igenom varje sida, sorterar element efter Y-koordinat och rekonstruerar styckeavbrott där de hör hemma.
Kopiera eller ladda ner .txt
Få ren UTF-8 vanlig text. Kopiera till urklipp eller spara som .txt-fil — du bestämmer.
När du vill ha texten och inte PDF:en
Skälen till att dra ut texten ur en PDF kretsar nästan alltid kring samma sak: att få orden dit PDF:en inte kommer in. Du vill klistra in ett citat i ett mejl utan att släpa med PDF:en som bilaga. Du matar in en lång text i en AI-assistent som bara tar vanlig text. Du vill greppa en 200-sidig rapport efter en fras och läsarens sökning gömmer något. Du översätter ett kontrakt och översättningsverktyget vill ha källan som en platt fil. Du tar ett färdigt manus från en PDF tillbaka till en textredigerare. I alla dessa fall är det förpackningen som står i vägen — orden mår bra, de sitter bara fast i ett ombrytt utseende som är svårt att sätta ihop igen.
Utdata här är precis det: vanlig text, en stor .txt-fil, i samma ordning som PDF:en läses. Ingen formatering, inga typsnitt, inga bilder, inga tabeller-som-tabeller. Jobbet är att frigöra orden.
Vad „extrahering" faktiskt gör
En PDF rymmer två sorters „text". Riktig text — tecken ritade med typsnitt som PDF:en markerar som bokstäver — ligger i ett textlager. Det lagret läser verktyget direkt. Den andra sorten är text som bara finns som pixlar: allt skannat, fotograferat eller skärmdumpat innan det lades in i PDF:en. De tecknen är bilder av bokstäver, inte bokstäver, och ingen extraktor ser dem som text utan OCR. Något OCR-steg finns inte här.
Två snabba kontroller berättar vilken sorts PDF du har. Öppna den i valfri läsare, klicka och dra över ett stycke: om texten markeras snyggt finns det ett textlager och extraheringen fungerar. Om markören ritar en rektangel och inget markeras är sidan en bild, och då måste den först köras genom OCR (i ett annat verktyg) för att extraktorn ska ha något att läsa.
Hur radbrytningar och stycken kommer ut
PDF:er sparar inga stycken. Inuti är en sida en säck med textfragment med positioner — ingen metadata som säger „här slutar stycket". Läsbar vanlig text utan brytningar finns inte, så verktyget härleder dem ur de lodräta mellanrummen: litet mellanrum mellan rader blir en enkel radbrytning, större mellanrum (det designers lämnar mellan stycken) blir en tom rad. De vanliga fallen sitter: brödtext, rubriker, listor. Om designern använt ovanliga mellanrum för annat kan verktyget inte gissa det, och de ställena kan behöva lätt manuell efterjustering.
Sidor avskiljs med en tom rad i utdata. Vill du inte ha sidavdelare alls tar ett sök-och-ersätt av dubbel radbrytning till enkel bort dem.
Vad som inte överlever extraheringen
- Fet, kursiv, typsnitt, färg, justering. Vanlig text är platt. Behöver du bevara formatering, se pdf-to-word.
- Tabeller. Celler blir vanlig text i läsordning — vanligen rad för rad, ofta med klumpig spacing. Tabeller som ska förbli tabeller hör hemma i pdf-to-excel.
- Bilder och diagram. Det som i PDF:en inte var text dyker inte upp i texten. För att dra ut bilder separat, se pdf-to-jpg.
- Sidhuvuden och sidfötter. Om originalet upprepade „Konfidentiellt — sida X av Y" på varje sida gör den utdragna texten det också. Ett sök-och-ersätt tar bort dem på sekunder.
- Ord brutna med bindestreck vid radslut. Ett ord brutet av bindestreck kommer ut som
nå-\ngotistället förnågot. Spelar det roll för senare sökning eller stavningskontroll så fixar en regex-\n→ tomt det. - Layouter med flera kolumner kan blandas. En tvåspaltig vetenskaplig artikel kan komma ut med meningar varvade från vänster och höger spalt. Enspaltiga dokument — de flesta rapporter, kontrakt, böcker — påverkas inte. Om ett blandat resultat är oanvändbart är det renare att öppna PDF:en i ett verktyg som respekterar spaltordning innan ny extrahering.
Några praktiska noteringar
- Är PDF:en lösenordsskyddad, kör den först genom unlock-pdf. Krypterade PDF:er går inte att öppna för textextrahering.
- För mycket stora PDF:er (hundratals MB, tusentals sidor) körs extraheringen ändå i din webbläsare. På desktop är det sällan ett problem; på en telefon med en 500-sidig skanning är webbläsarens minne taket. I så fall: desktop.
- Utdata är UTF-8. Kyrilliska, grekiska, arabiska, kinesiska, latin med diakriter kommer ut rent när PDF:en sparat dem som riktig text. PDF:er som ritade icke-latinska tecken som inbäddade subset-glyfer utan rätt kodning ger sopor vid extrahering — det är ett problem i PDF:en, inte i extraktorn. Botas vid källan: exportera om med rätt Unicode-kodning.
- Filnamnsmönster. En fil
contract.pdfladdas ned somcontract.txt. PDF:en på disken stannar.
Vad händer med din fil
Extraheringen körs i din webbläsare. Öppna DevTools och titta på Network-fliken under operationen — inga utgående förfrågningar med filinnehåll. PDF:en stannar på disken; .txt är en ny nedladdning bredvid.
Vanliga frågor
Hur fungerar extraktionen?
Vi använder Mozillas pdf.js för att läsa det inbäddade textlagret av din PDF sida för sida. Element grupperas efter Y-koordinat så styckeavbrott bevaras — ingen server, ingen uppladdning.
Fungerar det på skannade PDF-filer?
Nej. Skanningar är bilder av text, inte text — att extrahera dem kräver OCR, som detta verktyg inte kör. Om din PDF skapades genom att skanna papper behöver du ett OCR-verktyg först.
Laddas min fil upp någonstans?
Aldrig. Extraktionen körs helt i din webbläsare via WebAssembly — verifierbart i DevTools → Network. Filen stannar på din enhet.
Vad händer med lösenordsskyddade PDF-filer?
Lås först upp PDF-en med vårt Lås upp PDF-verktyg och extrahera sedan. Krypterade content streams kan inte tolkas utan lösenordet.
Vilken är filstorleksgränsen?
Upp till 100 MB. Större kan ta slut på webbläsarminne — försök att dela med Dela PDF-verktyget först.