PDF til Excel
Online
Udtræk tabeller fra PDF'er til redigerbare Excel-projektmapper. Detektion og parsing sker helt i din browser.
Bekræft selv: åbn DevTools → Network-fanen → slip en fil. Se, at der sker nul uploads.
Tre trin. Nul uploads.
Slip din PDF
Indlæs i browserens hukommelse.
Find tabeller
Vi finder tabelgrænser og parser celler klient-side.
Download XLSX
Åbn i Excel, Numbers eller Google Sheets.
Når tabellen sidder i en PDF og skal være tabel igen
Anledningerne følger som regel et andet menneskes formatvalg. Banken sender kontoudtoget som PDF, og du vil hælde transaktionerne i et regneark for at lægge en kategori sammen. Prislisten fra leverandøren kom i PDF, og du vil sammenligne den med sidste kvartal. En myndighed udgiver datatabeller kun som PDF, og du har brug for dem som celler for at sortere og filtrere. En scrapet rapport ligger som PDF, og du vil have hver række som en række. I alle disse tilfælde findes tallene; de opfører sig bare ikke som tal, fordi de er låst inde i et layout.
Opgaven her er at få rækker og kolonner tilbage: tag PDF'en, lever en .xlsx, hvor hver side er sit eget ark, hver række er en række, og hver kolonne er en kolonne. Derfra kan du sortere, filtrere, summere, lave pivottabeller — det regneark er til.
Hvorfor det er et gæt — og et ret godt
PDF'er gemmer ikke tabeller. Indvendigt er en side en flad strøm af tekstfragmenter med x/y-positioner på lærredet. Ingen steder står „dette er en række" eller „her starter en kolonne" — disse strukturer findes kun i dit øje, når du læser. At hente dem tilbage betyder at udlede gitteret af, hvor teksten faktisk sidder.
Værktøjet gør det i flere trin. Først grupperer det tekstfragmenter i rækker efter y: hvis to fragmenter ligger lodret inden for ca. en halv linjehøjde af hinanden, hører de til samme række. Derefter inden for en række: fragmenter, der ligger tæt vandret, smeltes til én celle (almindelig bogstavafstand), mens bredere mellemrum bliver cellegrænser (mellemrum mellem kolonner). Til sidst kigger den på, hvor celler begynder hen over hele siden, finder de dominerende x-positioner og behandler dem som kolonnemidter — hver celle ryger til den nærmeste. Det giver det rektangulære gitter, regnearket har brug for.
Hvad algoritmen rammer
- Klassiske finansielle tabeller — kontoudtog, fakturaer, prislister, udgiftsopgørelser. Én række pr. post, klare mellemrum mellem kolonner, højrejusterede tal: præcis det tilfælde, heuristikken er tunet til, og det går som regel rent igennem.
- Énrækkes-poster. Når hver post passer på én linje, er rækkedetektionen pålidelig.
- Tabeller i fuld sidebredde. Kolonnedetektionen virker bedst, når kolonnerne har god afstand og er konstante hen over siden.
- Højre- og venstrejustering. Værktøjet tager begge — det vigtige er et synligt mellemrum mellem kolonnerne.
Hvor det får problemer
- Celler med linjeskift. En celle, hvis værdi løber til en anden linje — lang produktbeskrivelse, flerlinjet adresse — bliver som regel splittet i to rækker. Det rettes med let manuel oprydning i regnearket (eller hellere pdf-to-txt og bygge tabellen i hånden, hvis oprydningen ikke kan svare sig).
- Flettede celler. En overskrift, der visuelt dækker to kolonner, dukker kun op i én — den nærmeste. Sammenfletningen ser du som værdi i kolonne A og en tom B.
- To tabeller ved siden af hinanden. Kolonnedetektoren ser dem på én gang og kan presse dem til én bred tabel. At skære PDF'en i halve på forhånd hjælper.
- Brødtekst på samme side som en tabel. Et afsnit ovenfor tabellen leverer egne „rækker" af tekst — et par rækker, der i virkeligheden ikke er rækker, nemme at slette.
- Tabeller over flere sider. Hver side bliver et eget ark. For at sy dem til én sammenhængende tabel kopierer og indsætter du datablokkene efter ekstraktionen.
- Scannede PDF'er. Samme forbehold som for al tekstudtræk: hvis siden er et billede (scannet udtog, fotograferet kvittering), er der intet at læse. Først gennem OCR i et andet værktøj.
Hvad du får til sidst
Én .xlsx-fil. Hver PDF-side bliver sit eget ark navngivet Page 1, Page 2 osv. Den åbner i Excel, Numbers, Google Sheets, LibreOffice — alle. Cellerne er rene værdier; ingen formatering, formler eller stilarter. Pointen er, at tallene nu er tal, og kolonnerne nu er kolonner.
Vil du have CSV i stedet for xlsx, så gem arket som CSV fra dit regnearksprogram — det er én menu væk.
Praktiske noter
- Hvis PDF'en har adgangskode, så send den først gennem unlock-pdf. Krypterede PDF'er kan ikke åbnes til celleudtræk.
- Til meget brede tabeller hjælper det at rotere kilde-PDF'en til liggende før udtræk — færre kolonner, renere mellemrum. Rotation foregår i edit-pdf.
- Hvis du kun skal bruge teksten uden struktur, er pdf-to-txt hurtigere, og resultatet er nemmere at flytte rundt på.
- Den omvendte operation — at lægge et Excel-ark ind i en PDF — er excel-to-pdf.
Hvad sker der med din fil
Udtrækket kører i din browser. Åbn DevTools og se Network-fanen under operationen — ingen udgående forespørgsler med filindhold. PDF'en bliver på disken; .xlsx'en er en ny download ved siden af.
Ofte stillede spørgsmål
Uploades min PDF?
Nej. Detektion og parsing sker helt i din browser. Filen forlader aldrig enheden.
Virker det på scannede PDF'er (OCR)?
Scannede tabeller kræver OCR for at blive redigerbare celler. Tekstbaserede PDF'er (med markerbar tekst) udtrækkes direkte.
Hvor præcis er tabeldetektion?
Tabeller med linjer og godt adskilte gitre udtrækkes rent. Flettede celler og tabeller uden kanter kan kræve manuel gennemgang.
Kan jeg vælge bestemte sider?
Ja. Vælg et sideinterval for kun at udtrække tabeller fra de sider, du har brug for.