PDF zu Excel

PDF in
Excel

Tabellen aus PDFs in bearbeitbare Excel-Mappen extrahieren. Erkennung und Parsing erfolgen vollständig im Browser.

PDF hier ablegen
Wir erkennen die Tabellen und exportieren sie als saubere XLSX-Datei.

Selbst überprüfen: DevTools öffnen → Network-Tab → eine Datei ablegen. Beobachten Sie, wie null Uploads passieren.

Tabellen automatisch erkannt Offline nach dem ersten Laden
Kostenlos
Keine Anmeldung
Kein Upload
Tabellen erhalten
SO FUNKTIONIERT ES

Drei Schritte. Null Uploads.

1

PDF ablegen

In den Browser-Speicher laden.

2

Tabellen erkennen

Wir finden Tabellengrenzen und parsen Zellen clientseitig.

3

XLSX herunterladen

In Excel, Numbers oder Google Sheets öffnen.

Wenn die Tabelle in einem PDF steckt und eine Tabelle sein soll

Die Anlässe ergeben sich meist aus jemandes Formatentscheidung. Die Bank schickt den Auszug als PDF, und Sie wollen die Buchungen in eine Tabelle ziehen, um eine Kategorie zu summieren. Die Preisliste vom Lieferanten kommt im PDF, und Sie wollen sie mit dem Vorquartal vergleichen. Eine Behörde veröffentlicht Datentabellen ausschließlich als PDF, und Sie brauchen sie als Zellen, um zu sortieren und zu filtern. Ein gescrapter Bericht liegt als PDF vor, und Sie wollen jede Zeile als Zeile. In all diesen Fällen sind die Zahlen vorhanden — sie verhalten sich nur nicht wie Zahlen, weil sie in einer Layoutfassung gefangen sind.

Die Aufgabe hier: Zeilen und Spalten zurückholen. PDF rein, .xlsx raus, mit jeder Seite als eigenem Blatt, jeder Zeile als Zeile, jeder Spalte als Spalte. Von dort aus geht Sortieren, Filtern, Summieren, Pivotieren — wofür Tabellen da sind.

Warum es eine Schätzung ist — und eine ziemlich gute

PDFs speichern keine Tabellen. Im Inneren ist eine Seite ein flacher Strom von Textfragmenten mit x/y-Positionen auf der Fläche. Nirgends steht „das ist eine Zeile" oder „hier beginnt eine Spalte" — diese Strukturen entstehen erst in Ihrem Auge beim Lesen. Sie zurückzubekommen heißt, das Raster aus den Positionen abzuleiten.

Das Tool macht das in mehreren Schritten. Zuerst gruppiert es Textfragmente nach y zu Zeilen: Liegen zwei Fragmente vertikal höchstens etwa eine halbe Zeilenhöhe auseinander, gehören sie zur selben Zeile. Innerhalb einer Zeile werden horizontal eng beieinanderliegende Fragmente zu einer Zelle verschmolzen (normales Buchstabenabstand), größere Lücken werden Zellgrenzen (Spaltenrinnen). Schließlich schaut es, wo Zellen über die ganze Seite hinweg beginnen, findet die dominanten x-Positionen und behandelt sie als Spaltenmitten — jede Zelle landet bei der nächstgelegenen. So entsteht das rechteckige Raster, das die Tabelle braucht.

Was der Algorithmus richtig macht

  • Klassische Finanztabellen — Kontoauszüge, Rechnungen, Preislisten, Reisekostenabrechnungen. Eine Zeile pro Eintrag, klare Spaltenrinnen, rechtsbündige Zahlen: genau der Fall, auf den die Heuristik abgestimmt ist, und meistens kommt sie sauber durch.
  • Einzeilige Einträge. Passt jeder Datensatz in eine Zeile, ist die Zeilenerkennung verlässlich.
  • Tabellen über die volle Seitenbreite. Spaltenerkennung läuft am besten, wenn Spalten gut auseinanderliegen und über die Seite gleich bleiben.
  • Rechts- und linksbündige Spalten. Beides geht — entscheidend ist eine erkennbare Lücke zwischen den Spalten.

Wo es schwierig wird

  • Umbrechende Zellen. Eine Zelle, deren Wert auf eine zweite Zeile gerät — lange Produktbeschreibung, mehrzeilige Adresse — wird meist auf zwei Zeilen verteilt. Hilft leichte Nacharbeit in der Tabelle (oder lieber pdf-to-txt und die Tabelle von Hand neu bauen, wenn sich die Korrektur nicht lohnt).
  • Verbundene Zellen. Eine Überschrift, die optisch zwei Spalten umfasst, taucht nur in einer auf — der nächstgelegenen. Den Verbund sehen Sie als Wert in Spalte A und ein leeres B.
  • Zwei Tabellen nebeneinander. Der Spaltenerkenner sieht beide gleichzeitig und kann sie zu einer breiten verschmelzen. Hilft, das PDF vorher in Hälften zu schneiden.
  • Fließtext auf derselben Seite wie eine Tabelle. Ein Absatz oberhalb der Tabelle steuert eigene „Zeilen" Text bei — ein paar Zeilen, die in Wahrheit keine sind, leicht zu löschen.
  • Mehrseitige Tabellen. Jede Seite wird zu einem eigenen Blatt. Um zu einer durchgehenden Tabelle zusammenzusetzen, kopieren Sie nach der Extraktion die Datenabschnitte und fügen sie aneinander.
  • Gescannte PDFs. Die gleiche Einschränkung wie bei jeder Textextraktion: Ist die Seite ein Bild (eingescannter Auszug, abfotografierter Beleg), gibt es nichts zu lesen. Erst durch ein OCR in einem anderen Tool.

Was am Ende herauskommt

Eine .xlsx-Datei. Jede PDF-Seite wird zu einem eigenen Blatt mit dem Namen Page 1, Page 2 usw. Lässt sich in Excel, Numbers, Google Sheets, LibreOffice öffnen — in allen. Zellen sind reine Werte; keine Formatierung, keine Formeln, keine Stile. Der Witz: Zahlen sind jetzt Zahlen, Spalten sind Spalten.

Wenn Sie lieber CSV statt xlsx möchten, speichern Sie das Blatt aus Ihrer Tabellen-App als CSV — das ist ein Menüpunkt entfernt.

Praktische Hinweise

  1. Hat das PDF ein Passwort, erst durch unlock-pdf. Verschlüsselte PDFs lassen sich nicht für die Zellextraktion öffnen.
  2. Bei sehr breiten Tabellen hilft es, das Quell-PDF vor der Extraktion ins Querformat zu drehen — weniger Spalten, sauberere Lücken. Drehen erledigt edit-pdf.
  3. Brauchen Sie nur den Text ohne Struktur, ist pdf-to-txt schneller, und das Ergebnis lässt sich leichter umfließen.
  4. Die Umkehrung — ein Excel-Blatt in ein PDF zu setzen — ist excel-to-pdf.

Was mit Ihrer Datei passiert

Die Extraktion läuft in Ihrem Browser. Öffnen Sie die DevTools und beobachten Sie den Network-Tab während der Operation — keine ausgehenden Anfragen mit Dateiinhalt. Das PDF bleibt auf der Festplatte; die .xlsx ist ein neuer Download daneben.

FAQ

Häufige Fragen

Wird mein PDF hochgeladen?

Nein. Erkennung und Parsing erfolgen vollständig im Browser. Die Datei verlässt Ihr Gerät nicht.

Funktioniert es bei gescannten PDFs (OCR)?

Gescannte Tabellen benötigen OCR, um zu bearbeitbaren Zellen zu werden. Textbasierte PDFs (mit markierbarem Text) werden direkt extrahiert.

Wie genau ist die Tabellenerkennung?

Linierte Tabellen und gut abgesetzte Raster werden sauber extrahiert. Verbundene Zellen und rahmenlose Tabellen können eine manuelle Prüfung erfordern.

Kann ich bestimmte Seiten wählen?

Ja. Legen Sie einen Seitenbereich fest, um nur die benötigten Seiten zu extrahieren.