PDF zu Text

Text aus jeder PDF extrahieren,
im Browser.

Holen Sie eine saubere Textebene aus jeder PDF — Absätze bleiben erhalten, mehrseitig, UTF-8. Die Extraktion läuft in Ihrem Browser, sodass die Datei Ihr Gerät nie verlässt.

Legen Sie die PDF ab, aus der Sie Text extrahieren möchten
Wir lesen die eingebettete Textebene mit pdf.js — kein OCR, kein Server.

Selbst überprüfen: DevTools öffnen → Network-Tab → eine Datei ablegen. Beobachten Sie, wie null Uploads passieren.

Mehrseitig · UTF-8-Ausgabe Gescannte PDFs benötigen OCR — dieses Tool liest nur die Textebene
Kostenlos
Keine Anmeldung
Kein Upload
UTF-8-Ausgabe
SO FUNKTIONIERT'S

Drei Schritte. Ihre PDF verlässt diesen Tab nie.

1

PDF ablegen

Wählen Sie die Datei, aus der Sie Text extrahieren möchten. Sie wird in den Browser-Speicher geladen, nicht auf einen Server.

2

Wir lesen die Textebene

pdf.js durchläuft jede Seite, sortiert Elemente nach Y-Koordinate und stellt Absatzumbrüche dort wieder her, wo sie hingehören.

3

.txt kopieren oder herunterladen

Sauberer UTF-8-Klartext. In die Zwischenablage kopieren oder als .txt speichern — Sie entscheiden.

Wenn Sie den Text wollen, nicht das PDF

Die Gründe, Text aus einem PDF herauszuholen, drehen sich fast immer um eines: die Wörter dorthin zu bringen, wo das PDF nicht hinkommt. Sie wollen ein Zitat in eine E-Mail einfügen, ohne das PDF als Anhang mitzuschleppen. Sie geben ein langes Dokument an einen KI-Assistenten, der nur Klartext nimmt. Sie wollen einen 200-seitigen Bericht nach einer Phrase greppen, und die Suche im Reader versteckt etwas. Sie übersetzen einen Vertrag, und das Übersetzungstool will die Quelle als flache Datei. Sie holen ein fertiges Manuskript aus dem PDF zurück in den Schreibeditor. In all diesen Fällen ist die Hülle das Problem — die Wörter sind in Ordnung, sie stecken nur in einem Layout, das schwer wieder zusammenzusetzen ist.

Die Ausgabe hier ist genau das: Klartext, eine große .txt-Datei, in der Reihenfolge, in der das PDF gelesen wird. Keine Formatierung, keine Schriftarten, keine Bilder, keine Tabellen-als-Tabellen. Die Aufgabe ist, die Wörter freizulegen.

Was „Extraktion" tatsächlich tut

Ein PDF enthält zwei Sorten „Text". Echter Text — Zeichen, die mit Schriften gezeichnet werden und im PDF als Buchstaben markiert sind — liegt in einer Textebene. Diese Ebene liest das Tool direkt. Die andere Sorte ist Text, der nur als Pixel existiert: alles Gescannte, Fotografierte, jeder Screenshot, der vor dem Einlegen ins PDF entstand. Diese Zeichen sind Bilder von Buchstaben, keine Buchstaben, und kein Extraktor sieht sie ohne OCR als Text. Einen OCR-Schritt gibt es hier nicht.

Zwei schnelle Tests verraten, welches PDF Sie haben. Öffnen Sie es in einem beliebigen Reader, klicken und ziehen Sie über einen Absatz: Markiert sich der Text sauber, gibt es eine Textebene und die Extraktion klappt. Zieht der Cursor ein Rechteck und nichts markiert sich, ist die Seite ein Bild — dann muss sie zuerst durch ein OCR (in einem anderen Tool), bevor der Extraktor etwas zu lesen findet.

Wie Zeilenumbrüche und Absätze entstehen

PDFs speichern keine Absätze. Im Inneren ist eine Seite ein Sack Textfragmente mit Positionen — nirgends ein „hier endet der Absatz". Sinnvoller Klartext ohne Umbrüche existiert nicht, also folgert das Tool sie aus den vertikalen Abständen: kleiner Abstand zwischen Zeilen wird zu einem Zeilenumbruch, größerer Abstand (wie Designer ihn zwischen Absätzen lassen) zu einer Leerzeile. Die häufigen Fälle sitzen: Fließtext, Überschriften, Listen. Setzt der Designer ungewöhnliche Abstände für etwas anderes ein, kann das Tool das nicht erraten — solche Stellen brauchen eventuell leichte Nacharbeit.

Seiten sind im Ergebnis durch eine Leerzeile getrennt. Wollen Sie überhaupt keine Seitentrenner, ersetzen Sie die doppelte Leerzeile per Suchen-und-Ersetzen durch eine einfache.

Was die Extraktion nicht überlebt

  • Fett, kursiv, Schriftarten, Farbe, Ausrichtung. Klartext ist flach. Soll Formatierung erhalten bleiben, siehe pdf-to-word.
  • Tabellen. Zellen werden zu Klartext in Leserichtung — meist Zeile für Zeile, oft mit ungünstigen Abständen. Tabellen, die Tabellen bleiben sollen, gehören in pdf-to-excel.
  • Bilder und Diagramme. Was im PDF kein Text war, taucht im Text nicht auf. Um Bilder separat herauszuziehen, siehe pdf-to-jpg.
  • Kopf- und Fußzeilen. Stand im Original auf jeder Seite „Vertraulich — Seite X von Y", steht es im Ergebnis ebenso. Ein Suchen-und-Ersetzen entfernt das in Sekunden.
  • Mit Trennstrich umgebrochene Wörter. Ein durch Trennstrich am Zeilenende geteiltes Wort kommt als etwas-\netwas heraus, nicht als etwasetwas. Wenn das für nachfolgende Suche oder Rechtschreibprüfung wichtig ist, behebt das ein Regex -\n → leer.
  • Mehrspaltiges Layout kann sich verflechten. Eine zweispaltige Forschungsarbeit kann mit abwechselnden Sätzen aus linker und rechter Spalte herauskommen. Einspaltige Dokumente — die meisten Berichte, Verträge, Bücher — sind nicht betroffen. Ist ein verflochtenes Ergebnis unbrauchbar, ist es sauberer, das PDF erst in einem Tool zu öffnen, das die Spaltenreihenfolge respektiert, und dann erneut zu extrahieren.

Ein paar praktische Hinweise

  1. Ist das PDF passwortgeschützt, erst durch unlock-pdf. Verschlüsselte PDFs lassen sich nicht zur Textextraktion öffnen.
  2. Bei sehr großen PDFs (hunderte MB, tausende Seiten) läuft die Extraktion ebenfalls im Browser. Auf dem Desktop ist das selten ein Problem; auf dem Handy mit einem 500-seitigen Scan ist der Browser-Speicher die Grenze. In dem Fall: Desktop.
  3. Die Ausgabe ist UTF-8. Kyrillisch, Griechisch, Arabisch, Chinesisch, Latein mit Diakritika überstehen alles sauber, sofern sie im PDF als echter Text gespeichert waren. PDFs, die nicht-lateinische Zeichen ohne korrekte Codierung als eingebettete Subset-Glyphen gezeichnet haben, liefern bei der Extraktion Müll — das ist ein Problem im PDF, nicht im Extraktor. Heilung an der Quelle: mit korrekter Unicode-Codierung neu exportieren.
  4. Dateinamen-Muster. Eine Datei contract.pdf wird als contract.txt heruntergeladen. Das PDF auf der Festplatte bleibt dort.

Was mit Ihrer Datei passiert

Die Extraktion läuft in Ihrem Browser. Öffnen Sie die DevTools und beobachten Sie den Network-Tab während der Operation — keine ausgehenden Anfragen mit Dateiinhalt. Das PDF bleibt auf der Festplatte; die .txt ist ein neuer Download daneben.

FAQ

Häufig gefragt

Wie funktioniert die Extraktion?

Wir nutzen Mozillas pdf.js, um die eingebettete Textebene Ihrer PDF Seite für Seite zu lesen. Die Elemente werden nach Y-Koordinate gruppiert, damit Absatzumbrüche erhalten bleiben — kein Server, kein Upload.

Funktioniert es bei gescannten PDFs?

Nein. Scans sind Bilder von Text, nicht Text — die Extraktion benötigt OCR, das dieses Tool nicht ausführt. Wenn Ihre PDF aus eingescannten Papieren stammt, brauchen Sie zuerst ein OCR-Tool.

Wird meine Datei irgendwohin hochgeladen?

Nie. Die Extraktion läuft komplett in Ihrem Browser via WebAssembly — überprüfbar in den DevTools → Network. Die Datei bleibt auf Ihrem Gerät.

Was ist mit passwortgeschützten PDFs?

Entsperren Sie die PDF zuerst mit unserem Tool PDF entsperren, dann extrahieren. Verschlüsselte Inhaltsströme lassen sich ohne Passwort nicht parsen.

Was ist die Dateigrößenbegrenzung?

Bis zu 100 MB. Größere Dateien können den Browser-Speicher erschöpfen — teilen Sie sie zuvor mit PDF teilen auf.