PDF till Excel
Online
Extrahera tabeller från PDF-filer till redigerbara Excel-arbetsböcker. Detektion och tolkning sker helt i din webbläsare.
Kontrollera själv: öppna DevTools → fliken Network → släpp en fil. Se hur noll uppladdningar sker.
Tre steg. Noll uppladdningar.
Släpp PDF-en här
Läs in i webbläsarens minne.
Upptäck tabeller
Vi hittar tabellgränser och tolkar celler på klientsidan.
Ladda ner XLSX
Öppna i Excel, Numbers eller Google Sheets.
När tabellen sitter i en PDF och måste bli tabell igen
Tillfällena dyker oftast upp i kölvattnet av någon annans formatval. Banken skickar utdraget som PDF, och du vill kasta in transaktionerna i ett kalkylark för att summera en kategori. Prislistan från leverantören kom i PDF, och du vill jämföra den med förra kvartalet. En myndighet publicerar datatabeller bara som PDF, och du behöver dem som celler för att sortera och filtrera. En skrejpad rapport ligger som PDF, och du vill ha varje rad som en rad. I alla dessa fall finns siffrorna; de beter sig bara inte som siffror, för de är inlåsta i ett ombrytt utseende.
Jobbet här är att hämta tillbaka rader och kolumner: ta PDF:en, ge tillbaka en .xlsx där varje sida är ett eget blad, varje rad är en rad och varje kolumn är en kolumn. Därifrån kan du sortera, filtrera, summera, göra pivottabeller — det kalkylark är till för.
Varför det är en gissning — och en ganska bra
PDF:er sparar inga tabeller. Inuti är en sida en platt ström av textfragment med x/y-positioner på duken. Ingenstans står det „det här är en rad" eller „här börjar en kolumn" — de strukturerna finns bara i ditt öga när du läser. Att hämta tillbaka dem betyder att härleda rutnätet ur var texten faktiskt sitter.
Verktyget gör det i flera steg. Först grupperar det textfragment i rader efter y: ligger två fragment lodrätt inom ungefär halva radhöjden från varandra, hör de till samma rad. Sedan inom raden: fragment som ligger nära i sidled smälter ihop till en cell (vanligt teckenmellanrum), medan större mellanrum blir cellgränser (kolumngator). Till sist tittar verktyget på var celler börjar över hela sidan, hittar de dominerande x-positionerna och behandlar dem som kolumncentra — varje cell hamnar hos den närmaste. Resultatet blir det rektangulära rutnät kalkylarket vill ha.
Vad algoritmen träffar rätt
- Klassiska finansiella tabeller — kontoutdrag, fakturor, prislistor, utläggsrapporter. En rad per post, tydliga gator mellan kolumner, högerjusterade siffror: precis det fall heuristiken är inställd för, och det går oftast rakt igenom.
- Enradsposter. När varje post ryms på en rad är raddetekteringen pålitlig.
- Tabeller över hela sidbredden. Kolumndetektering fungerar bäst när kolumnerna är välspridda och konstanta över sidan.
- Höger- och vänsterjustering. Verktyget hanterar båda — det viktiga är ett synligt mellanrum mellan kolumnerna.
Var det får problem
- Celler som radbryts. En cell vars värde går vidare till andra raden — lång produktbeskrivning, flerradig adress — splittras oftast i två rader. Det rättas med lätt manuell justering i kalkylarket (eller hellre pdf-to-txt och bygga om tabellen för hand om justeringen inte är värd besväret).
- Sammanfogade celler. En rubrik som visuellt täcker två kolumner dyker bara upp i en — den närmaste. Sammanfogningen ser du som ett värde i kolumn A och tomt i B.
- Två tabeller bredvid varandra. Kolumndetektorn ser dem på en gång och kan platta ihop dem till en bred tabell. Att klippa PDF:en i halvor på förhand hjälper.
- Brödtext på samma sida som en tabell. Ett stycke ovanför tabellen bidrar med egna „rader" text — några rader som egentligen inte är rader, lätta att radera.
- Flersidiga tabeller. Varje sida blir ett eget blad. För att sy ihop dem till en sammanhängande tabell kopierar och klistrar du in datablocken efter extraheringen.
- Inscannade PDF:er. Samma reservation som vid all textextrahering: är sidan en bild (inscannat utdrag, fotograferat kvitto) finns inget att läsa. Först OCR i ett annat verktyg.
Vad du får i slutet
En .xlsx-fil. Varje PDF-sida blir ett eget blad med namnet Page 1, Page 2 osv. Öppnas i Excel, Numbers, Google Sheets, LibreOffice — vilken som. Celler är rena värden; ingen formatering, inga formler, inga stilar. Poängen är att siffrorna nu är siffror och kolumnerna är kolumner.
Vill du hellre ha CSV än xlsx, spara bladet som CSV från ditt kalkylprogram — det är en meny bort.
Praktiska anteckningar
- Är PDF:en lösenordsskyddad, kör först igenom unlock-pdf. Krypterade PDF:er kan inte öppnas för cellextrahering.
- För mycket breda tabeller hjälper det att rotera käll-PDF:en till liggande före extrahering — färre kolumner, renare mellanrum. Rotation görs i edit-pdf.
- Behöver du bara texten utan struktur, är pdf-to-txt snabbare och resultatet lättare att flytta om.
- Den omvända operationen — att lägga ett Excel-blad i en PDF — är excel-to-pdf.
Vad händer med din fil
Extraheringen körs i din webbläsare. Öppna DevTools och titta på Network-fliken under operationen — inga utgående förfrågningar med filinnehåll. PDF:en stannar på disken; .xlsx:en är en ny nedladdning bredvid.
Vanliga frågor
Laddas min PDF upp?
Nej. Detektion och tolkning sker helt i din webbläsare. Filen lämnar aldrig din enhet.
Fungerar det på skannade PDF-filer (OCR)?
Skannade tabeller behöver OCR för att bli redigerbara celler. Textbaserade PDF-filer (med markerbar text) extraheras direkt.
Hur exakt är tabelldetektionen?
Tabeller med linjer och välseparerade rutnät extraheras rent. Sammanslagna celler och kantlösa tabeller kan behöva manuell granskning.
Kan jag välja specifika sidor?
Ja. Välj ett sidintervall för att extrahera tabeller från endast de sidor du behöver.