Bild zu Text
im Browser
Ziehen Sie einen Screenshot, ein Handyfoto, einen Scan oder eine einseitige PDF in das Feld und kopieren Sie den Text in Sekunden. Deutsch, Englisch und 23 weitere Sprachen. Die Erkennungs-Engine startet direkt in Ihrem Browser — die Datei geht nicht an unseren Server.
Selbst prüfen: DevTools öffnen, im Network-Tab eine Datei ablegen — Sie sehen null ausgehende Requests mit Ihrem Bild.
Drei Schritte.
Bild ablegen
JPG, PNG, WebP, HEIC vom iPhone oder eine einseitige PDF. Die Datei öffnet sich im Browser und bleibt dort. Beim ersten Mal lädt die Erkennungs-Engine (etwa 10 MB) in den Browser und wird gecached — jeder weitere Lauf startet sofort und funktioniert offline.
Ein paar Sekunden warten, während die Engine liest
Tesseract.js — die WebAssembly-Portierung der von Google gepflegten OCR-Engine Tesseract — läuft komplett in Ihrem Browser. Ein sauberer A4-Scan ist auf einem modernen Laptop in 3–8 Sekunden fertig; ein Handyfoto einer Quittung oder eines Schildes meist unter 4 Sekunden. Die Fortschrittsleiste zeigt sowohl das Aufwärmen der Engine als auch die Texterkennung der Seite.
Text kopieren oder .txt herunterladen
Das Ergebnis landet in einem Textfeld mit Konfidenzwert. In die Zwischenablage kopieren oder als UTF-8-.txt-Datei herunterladen. Alles, was lief — der WASM-Kern, das Sprachmodell, die Erkennung selbst — passierte auf Ihrem Gerät. Keine Datei, kein erkannter Text und keine Metadaten erreichten unseren Server.
Was OCR wirklich macht
OCR (Optical Character Recognition, optische Zeichenerkennung) verwandelt Pixel, die wie Buchstaben aussehen, in Text, den der Computer versteht. Ein Foto einer Quittung oder ein Scan einer Buchseite sind für den Computer nur farbige Punkte, bis ein Modell, das auf Millionen gedruckter Zeichen trainiert wurde, jedes Punktmuster wieder auf a, b, 9, = abbildet. Die Engine in diesem Werkzeug ist Tesseract — dieselbe, die hinter dem Buchscanner des Internet Archive, der kostenlosen Stufe von ABBYY und den meisten Open-Source-PDF-Readern steht — nur hier nach WebAssembly kompiliert, damit sie in Ihrem Browser läuft statt auf dem Server eines anderen.
Was Sie ablegen können
JPG, PNG, WebP, HEIC (iPhone) und einseitige PDF. HEIC wird im Browser dekodiert — kein separater Konvertierungsschritt. Mehrseitige PDF: Es wird nur die erste Seite erkannt; wenn Sie alle brauchen, teilen Sie die PDF zuerst mit split-pdf und verarbeiten Sie jede einzeln. Fotos direkt vom Handy funktionieren; ebenso Screenshots, Scans vom Flachbettscanner und Bildschirmaufnahmen. Die praktische Obergrenze liegt bei 25 MB pro Datei — darüber hat der Browser Probleme, Canvas und WASM-Heap gleichzeitig im Speicher zu halten.
Wie sieht eine gute Eingabe aus
Die OCR-Qualität hängt viel mehr vom Bild ab als von der Engine. Ein 300-DPI-Scan vom Flachbettscanner einer maschinengeschriebenen Seite erreicht ohne Tuning 98–99% Genauigkeit. Ein scharfes Foto einer Quittung bei ordentlichem Licht: 95%+. Ein unscharfes Foto eines Vertrags, schräg im schwachen Licht aufgenommen: 60–80% — das Ergebnis braucht Nachlesen. Drei Dinge bewegen die Genauigkeit am meisten: Schärfe (fokussieren Sie die Kamera vor dem Auslösen), Kontrast (eine Quittung mit weißer Schrift auf schwarzem Grund ist schwerer als schwarz auf weiß) und Ausrichtung (die Engine verkraftet kleine Schräglagen, aber ein um 90 Grad gedrehtes Bild muss vorher gedreht werden). Wenn Sie Personalausweis, Reisepass, Gehaltsabrechnung oder Vertrag scannen und es auf Genauigkeit ankommt, nutzen Sie zuerst eine Scan-App — iOS Notizen, Google Drive oder Adobe Scan korrigieren Perspektive und Kontrast vor dem Speichern.
Sprachen
Die v1 kommt mit 25 Sprachen — eine pro Vastiko-Locale, plus vereinfachtes Chinesisch für Festland-Nutzer. Lateinisch: Englisch, Deutsch, Französisch, Spanisch, Italienisch, Portugiesisch (deckt auch Brasilianisch ab), Polnisch, Niederländisch, Dänisch, Schwedisch, Rumänisch, Ungarisch, Tschechisch, Türkisch, Indonesisch, Vietnamesisch. Kyrillisch: Russisch, Ukrainisch. Griechisch. Arabisch (von rechts nach links). Thai. CJK: Japanisch, Koreanisch, Chinesisch vereinfacht (Festland), Chinesisch traditionell (Taiwan / Hongkong).
Das Werkzeug versucht, Ihre Sprache anhand der Browser-Locale beim ersten Laden zu erraten — ein deutscher Browser öffnet mit vorausgewähltem Deutsch, ein japanischer mit Japanisch, und so weiter. Sie können jederzeit über die obere Leiste wechseln; Ihre letzte Wahl bleibt zwischen Sitzungen gespeichert. Jedes Sprachpaket lädt nur beim ersten Gebrauch (1–6 MB je nach Alphabet — lateinische Alphabete komprimieren besser als CJK) und wird im Browser gecached. Sprachwechsel ist ein einmaliger Download pro Sprache; spätere Nutzungen sind sofort verfügbar.
Deutsche Dokumente in realen Bedingungen sind selten zu 100% deutsch. Ein Vertrag erwähnt Excel, PDF und WhatsApp. Eine Lohnabrechnung enthält IBAN, SWIFT und englische Bankenkürzel. Eine Rechnung von einem ausländischen Kunden listet englische Firmennamen neben deutschen Begriffen. Deshalb lädt die Wahl einer anderen Sprache als Englisch als Primärsprache automatisch Englisch als Zweitalphabet im selben Erkennungsdurchlauf — die Engine berücksichtigt dann beide Alphabete und wählt pro Wort die Lesart mit höherer Konfidenz. Kosten: ~2× Speicher und ~30% langsamer als ein einzelnes Paket; das ist es wert, weil die Alternative englische Markennamen wären, die mitten im deutschen Text als Brei herauskommen.
Was dieses Werkzeug nicht gut kann
Handschrift. Tesseract ist auf gedruckten Text trainiert. Schreibschrift, handgeschriebene Rezepte, Notizen im Heft — verwirren das Modell (Microsofts Read API und Google Cloud Vision schneiden deutlich besser ab, aber beide verlangen einen Upload des Bildes). Komplexe Tabellen. Eine Tabellenkalkulations-PDF kommt als flacher Text mit zusammengeklebten Spalten heraus; dieses Werkzeug bewahrt die Lesereihenfolge, nicht die Tabellenstruktur. Für Tabellen, die als Daten bleiben sollen, nehmen Sie pdf-to-excel. Dekorative oder stilisierte Schriften. Logos, große Display-Headline-Schriften, Texteffekte — scheitern oft oder kommen als Kauderwelsch zurück, weil das Modell Fließtext-Formen erwartet. Sehr niedrige Auflösung. Screenshot eines Absatzes mit 320 Pixel Breite: rät. Mit 1500 Pixel Breite: liest.
Warum wir das im Browser behalten
Wenn jemand OCR macht, ist das Dokument meistens persönlich: gescannter Personalausweis fürs Visumsformular, Rechnung von der Privatklinik, Gehaltsabrechnung für den Kreditantrag, Vertrag, den jemand als JPG statt Word geschickt hat. Der kürzeste Weg von diesen Fotos zu lesbarem Text in der Zwischenablage führt meistens über die kostenlose OCR-Website von jemandem, der den Upload still für „die Verbesserung der Qualität" speichert. Wir haben die beliebten Anbieter für unser privacy audit der PDF-Editoren getestet, und das Muster wiederholt sich bei OCR: Upload zum Server, Aufbewahrungsrichtlinie mit „wenige Stunden", aber Zugriff auf dieselbe Festplatte Monate später, Drittanbieter-Analytics, die einen Hash der Dateiform bekommen. Wir haben die Arbeit gemacht, OCR komplett auf dem Gerät laufen zu lassen, weil die Art von Datei, die Sie auf dieses Werkzeug zeigen, genau die Art ist, die Sie lieber niemandem auf den Server geben.
Was mit Ihrer Datei passiert
DevTools öffnen, auf den Network-Tab gehen, Datei ablegen. Sie sehen einen einmaligen Download des WASM-Kerns und des deutschen Sprachmodells (zusammen etwa 10 MB) beim ersten Mal und danach absolut null ausgehende Requests, die irgendeinen Teil Ihrer Datei mitnehmen. Bei weiteren Nutzungen gibt es überhaupt keine Requests — die Engine ist gecached und die Seite funktioniert offline. Der erkannte Text lebt in einer Browser-Textarea, aus der Sie kopieren oder als .txt herunterladen können. Nichts davon berührt jemals eines unserer Logs, zu keinem Zeitpunkt.
Wann serverseitiges OCR mehr Sinn macht
Wenn Sie 10.000 Rechnungen pro Nacht verarbeiten, ist ein Werkzeug im Browser die falsche Form — Sie wollen eine Warteschlange und eine Flotte von GPU-Workern. Wenn Sie OCR für Handschrift mit hoher Genauigkeit brauchen, sind die Cloud-APIs immer noch besser als Open-Source. Wenn Ihre Dokumente öffentlich sind — historische Archive, Verträge in der Public Domain, Screenshots Ihres eigenen Blogs — gibt es keinen Datenschutzvorteil, und der Server kann schneller sein. Es geht nicht darum, dass lokales OCR in jedem Szenario gewinnt; es geht darum, dass für die Fotos, die in der Kamerarolle einer einzelnen Person liegen, die Rechnung umschlägt und kein Vertrauensvorschuss gegenüber einer Aufbewahrungsrichtlinie nötig sein sollte.
Wenn Sie bereits eine PDF mit Textebene haben — die meisten digital erstellten PDFs haben eine — verwenden Sie stattdessen pdf-to-txt: schneller und verlustfrei, weil es den eingebetteten Text liest, statt OCR auf der gerenderten Seite laufen zu lassen.
Häufige Fragen
Geht mein Bild an Ihren Server?
Nein. Das Bild öffnet sich in Ihrem Browser und wird dort verarbeitet. Die Erkennungs-Engine — Tesseract.js — lädt einmal herunter (~10 MB), wird im Browser gecached und läuft lokal. Zur Verifikation: DevTools öffnen, auf den Network-Tab gehen, eine Datei ablegen; Sie sehen keinen einzigen ausgehenden Request mit Ihrem Bild.
Welche Dateitypen werden unterstützt?
JPG, PNG, WebP, HEIC (iPhone) und einseitige PDF. HEIC wird im Browser dekodiert — keine separate Konvertierung. Mehrseitige PDFs: Nur die erste Seite wird verarbeitet; teilen Sie die PDF zuerst mit split-pdf, wenn Sie alle brauchen.
Welche Sprachen erkennt das Werkzeug?
25 Sprachen: Englisch, Deutsch, Französisch, Spanisch, Italienisch, Portugiesisch (deckt auch Brasilianisch ab), Polnisch, Niederländisch, Dänisch, Schwedisch, Rumänisch, Ungarisch, Tschechisch, Türkisch, Indonesisch, Vietnamesisch, Russisch, Ukrainisch, Griechisch, Arabisch, Thai, Japanisch, Koreanisch, Chinesisch vereinfacht und Chinesisch traditionell. Der Auswähler sitzt in der oberen Leiste; die Vorauswahl wird aus der Browser-Locale erkannt und bleibt zwischen Sitzungen erhalten.
Wie genau ist die Erkennung?
Auf einem sauberen 300-DPI-Scan maschinengeschriebenen Texts: 98–99%. Auf einem scharfen Foto einer gedruckten Seite oder Quittung: 95%+. Auf einem unscharfen, schlecht beleuchteten oder schiefen Bild: 60–80% — das Ergebnis braucht Nachlesen. Jedes Ergebnis zeigt einen Konfidenzwert, damit Sie wissen, wo in diesem Bereich Sie gelandet sind.
Was ist mit Dokumenten, die Deutsch und Englisch mischen?
Automatisch verarbeitet. Wählen Sie Deutsch als Primärsprache, und die Engine lädt Englisch als Zweitalphabet im selben Erkennungsdurchlauf — so kommen Markennamen (Excel, WhatsApp, PDF), URLs und englische Fachbegriffe sauber neben dem deutschen Text heraus. Ein kleines + EN-Badge neben dem Auswähler zeigt, wenn dieser Mischmodus aktiv ist. Die Kosten sind ~30% langsamer und ~2× Speicher; wir haben das standardmäßig an, weil die Alternative — Einsprachen-Durchlauf auf einem gemischten Dokument — genau die Ursache verstümmelter Markennamen ist.
Funktioniert es mit Handschrift?
Schlecht. Tesseract ist auf gedruckten Text trainiert — Schreibschrift, handgeschriebene Rezepte und Notizen im Heft verwirren es. Für Handschrift sind Microsofts Read API und Google Cloud Vision deutlich besser, aber beide verlangen den Upload des Bildes.
Warum ist der erste Lauf langsam?
Weil die Erkennungs-Engine — etwa 10 MB WebAssembly plus ein Sprachmodell — beim ersten Mal in Ihren Browser heruntergeladen wird. Danach bleibt die Engine im Cache und die Erkennung startet sofort. Die Seite funktioniert offline nach dem ersten Laden.
Kann ich es am Handy nutzen?
Ja. Die Seite ist eine ganz normale Webseite, die in jedem modernen mobilen Browser läuft. Auf älteren Handys dauert der erste Lauf länger wegen des Engine-Downloads; die folgenden sind schnell.
Und Tabellen, mehrspaltige Layouts oder komplexe Dokumente?
Der Text kommt in Lesereihenfolge als flacher Absatzstrom heraus — die Tabellenstruktur bleibt nicht erhalten. Für PDFs, in denen Sie Zeilen und Spalten als Daten brauchen, verwenden Sie pdf-to-excel. Für eine PDF, die bereits eine Textebene hat (die meisten digital erstellten PDFs haben eine), verwenden Sie pdf-to-txt — schneller, verlustfrei und ohne OCR.
Ist es wirklich kostenlos? Gibt es Limits?
Ja — kein Account, kein Wasserzeichen, kein Limit pro Export. Die Verarbeitung läuft auf Ihrem Gerät, also gibt es keine Serverkosten, die hereinzuholen wären. Praktisches Größenlimit: 25 MB pro Bild, damit dem Browser nicht der Speicher ausgeht.