Image en texte
dans le navigateur
Déposez une capture d'écran, une photo de téléphone, un scan ou un PDF d'une page et copiez le texte en quelques secondes. Français, anglais et 23 autres langues. Le moteur de reconnaissance s'exécute à l'intérieur de votre navigateur — le fichier ne part pas vers notre serveur.
Vérifiez vous-même : ouvrez DevTools, dans l'onglet Network déposez un fichier — vous verrez zéro requête sortante emportant votre image.
Trois étapes.
Déposez votre image
JPG, PNG, WebP, HEIC depuis l'iPhone, ou un PDF d'une page. Le fichier s'ouvre dans le navigateur et y reste. La première fois que vous utilisez l'outil, le moteur de reconnaissance (environ 10 Mo) se télécharge dans votre navigateur et reste en cache — chaque exécution suivante démarre instantanément et fonctionne hors-ligne.
Attendez quelques secondes pendant que le moteur lit
Tesseract.js — portage WebAssembly du moteur OCR Tesseract maintenu par Google — tourne entièrement dans votre navigateur. Un scan A4 propre se termine en 3–8 secondes sur un ordinateur portable moderne ; une photo de ticket ou de panneau prise au téléphone tient généralement sous 4 secondes. La barre de progression montre à la fois le préchauffage du moteur et la reconnaissance de la page.
Copiez le texte ou téléchargez .txt
Le résultat arrive dans une zone de texte brut avec un score de confiance. Copiez-le dans le presse-papiers ou téléchargez-le en fichier .txt UTF-8. Tout ce qui s'est exécuté — le cœur WASM, le modèle linguistique, la reconnaissance elle-même — s'est passé sur votre appareil. Aucun fichier, aucun texte reconnu et aucune métadonnée n'a atteint notre serveur.
Ce que fait vraiment l'OCR
L'OCR (Optical Character Recognition, reconnaissance optique de caractères) transforme des pixels qui ressemblent à des lettres en texte que l'ordinateur comprend. La photo d'un ticket ou le scan de la page d'un livre ne sont que des points colorés pour l'ordinateur, jusqu'à ce qu'un modèle entraîné sur des millions de caractères imprimés remappe chaque motif de points vers a, b, 9, =. Le moteur utilisé ici est Tesseract, le même qui équipe le scanner de livres d'Internet Archive, la version gratuite d'ABBYY et la plupart des lecteurs PDF open source — sauf qu'ici il est compilé en WebAssembly pour tourner dans votre navigateur plutôt que sur le serveur de quelqu'un d'autre.
Ce que vous pouvez déposer
JPG, PNG, WebP, HEIC (iPhone) et PDF d'une page. Le HEIC est décodé à l'intérieur du navigateur — sans étape de conversion séparée. PDF multi-pages : seule la première page est reconnue ; si vous avez besoin de toutes les pages, divisez d'abord le PDF avec split-pdf et traitez chacune. Les photos directement depuis le téléphone fonctionnent ; les captures d'écran, scans de scanner à plat et captures d'écran également. La limite pratique est de 25 Mo par fichier — au-delà, le navigateur peine à garder simultanément en mémoire le canvas et le tas WASM.
À quoi ressemble une bonne entrée
La qualité OCR dépend beaucoup plus de l'image que du moteur. Un scan à 300 DPI depuis un scanner à plat d'une page tapée à la machine atteint 98–99% de précision sans aucun réglage. Une photo nette d'un ticket sous une lumière correcte : 95%+. Une photo floue d'un contrat prise de travers en faible éclairage : 60–80%, et le résultat demandera relecture. Trois choses déplacent la précision plus que tout : netteté (faites la mise au point avant de déclencher), contraste (un ticket avec du texte blanc sur fond noir est plus difficile que du noir sur blanc) et orientation (le moteur encaisse de légères inclinaisons, mais une image tournée à 90 degrés doit être redressée d'abord). Si vous scannez carte d'identité, passeport, fiche de paie ou contrat et que la précision compte, utilisez d'abord une application de numérisation — Notes sur iOS, Google Drive ou Adobe Scan corrigent perspective et contraste avant la sauvegarde.
Langues
La v1 arrive avec 25 langues — une par locale Vastiko plus le chinois simplifié pour les utilisateurs continentaux. Latin : anglais, allemand, français, espagnol, italien, portugais (couvre aussi le brésilien), polonais, néerlandais, danois, suédois, roumain, hongrois, tchèque, turc, indonésien, vietnamien. Cyrillique : russe, ukrainien. Grec. Arabe (écriture de droite à gauche). Thaï. CJK : japonais, coréen, chinois simplifié (continent), chinois traditionnel (Taïwan / Hong Kong).
L'outil essaie de deviner votre langue à partir de la locale du navigateur au premier chargement — un navigateur en français s'ouvre avec le français pré-sélectionné, un navigateur japonais avec le japonais, et ainsi de suite. Vous pouvez changer à tout moment depuis la barre du haut ; votre dernier choix est conservé entre les sessions. Chaque paquet linguistique ne se télécharge qu'à la première utilisation (de 1 à 6 Mo selon l'alphabet — les alphabets latins se compressent mieux que CJK) et reste en cache dans le navigateur. Changer de langue est un téléchargement unique par langue ; les utilisations suivantes sont instantanées.
Les documents français en conditions réelles sont rarement à 100% en français. Un contrat mentionne Excel, PDF et WhatsApp. Un relevé bancaire contient IBAN, BIC et noms de banques étrangères en anglais. Une fiche de paie laisse passer des sigles comme URSSAF à côté de noms d'entreprise en anglais. C'est pourquoi le choix de toute langue autre que l'anglais comme primaire charge automatiquement l'anglais comme alphabet secondaire dans le même passage de reconnaissance — le moteur considère alors les deux alphabets et choisit pour chaque mot la lecture avec la confiance la plus haute. Coût : environ ×2 la mémoire et ~30% plus lent qu'un seul paquet, ça vaut le coup parce que l'alternative, ce sont des noms de marque anglais qui sortent en charabia au milieu du français.
Ce que cet outil ne fait pas bien
L'écriture manuscrite. Tesseract est entraîné sur du texte imprimé. Écriture cursive, ordonnance écrite à la main, notes de cahier — ça embrouille le modèle (Read API de Microsoft et Google Cloud Vision font sensiblement mieux, mais les deux exigent d'envoyer l'image). Tableaux complexes. Un PDF de tableur ressort en texte plat avec les colonnes collées ; cet outil préserve l'ordre de lecture, pas la structure du tableau. Pour les tableaux qui doivent rester des données, utilisez pdf-to-excel. Polices décoratives ou stylisées. Logos, polices d'affichage de titre, effets de texte rendu — échouent souvent ou reviennent en charabia, parce que le modèle attend des formes de texte courant. Très basse résolution. Capture d'écran d'un paragraphe de 320 pixels de large : devine ; de 1500 pixels : lit.
Pourquoi on garde ça dans votre navigateur
Quand quelqu'un fait de l'OCR, le document est en général personnel : scan de la carte d'identité pour remplir un dossier de visa, facture d'une clinique privée, fiche de paie pour un dossier de crédit immobilier, contrat que quelqu'un a envoyé en JPG plutôt qu'en Word. Le chemin le plus court de ces photos vers du texte lisible dans le presse-papiers passe généralement par le site OCR gratuit de quelqu'un qui stocke discrètement le téléversement « pour améliorer la qualité ». On a testé les plus populaires dans notre privacy audit des éditeurs PDF et le même motif se répète en OCR : envoi sur le serveur, politique de conservation qui dit « quelques heures » mais touche le même disque des mois plus tard, analytics tiers recevant un hash de la forme du fichier. On a fait le travail pour que l'OCR tourne entièrement sur l'appareil, parce que le type de fichier que vous pointez ici est exactement le type que vous préférez ne pas confier au serveur de qui que ce soit.
Ce qui arrive à votre fichier
Ouvrez DevTools, allez dans l'onglet Network et déposez le fichier. Vous verrez un téléchargement unique du cœur WASM et du modèle linguistique français (environ 10 Mo au total) à la première utilisation, et ensuite absolument zéro requête sortante emportant la moindre partie de votre fichier. Aux utilisations suivantes il n'y a aucune requête, point — le moteur est en cache et la page fonctionne hors-ligne. Le texte reconnu vit dans une textarea du navigateur que vous pouvez copier ou télécharger en .txt. Rien de tout cela ne touche jamais l'un de nos logs, à aucun moment.
Quand l'OCR côté serveur a plus de sens
Si vous traitez 10 000 factures par nuit, un outil dans le navigateur est la mauvaise forme — il vous faut une file et une flotte de workers GPU. Si vous avez besoin d'OCR de manuscrit avec haute précision, les API cloud restent meilleures que l'open source. Si vos documents sont publics — archives historiques, contrats du domaine public, captures d'écran de votre propre blog — il n'y a aucun avantage de confidentialité, et le serveur peut être plus rapide. Le sujet n'est pas que l'OCR local gagne dans tous les cas ; c'est que pour les photos qui restent dans la pellicule d'une seule personne, le calcul s'inverse et ne devrait pas exiger un acte de foi sur la politique de conservation.
Si vous avez déjà un PDF avec une couche de texte — la majorité des PDF créés numériquement en ont une — utilisez plutôt pdf-to-txt : plus rapide et sans perte, parce qu'il lit le texte sous-jacent au lieu de passer l'OCR sur la page rendue.
Questions fréquentes
Mon image part-elle sur votre serveur ?
Non. L'image s'ouvre dans votre navigateur et y est traitée. Le moteur de reconnaissance — Tesseract.js — se télécharge une seule fois (~10 Mo), reste en cache dans le navigateur et tourne en local. Pour vérifier, ouvrez DevTools, allez dans l'onglet Network et déposez un fichier ; vous ne verrez aucune requête sortante avec votre image.
Quels types de fichier sont pris en charge ?
JPG, PNG, WebP, HEIC (iPhone) et PDF d'une page. Le HEIC est décodé dans le navigateur — sans conversion séparée. PDF multi-pages : seule la première page est traitée ; divisez d'abord le PDF avec split-pdf si vous avez besoin de toutes.
Quelles langues reconnaît-il ?
25 langues : anglais, allemand, français, espagnol, italien, portugais (couvre aussi le brésilien), polonais, néerlandais, danois, suédois, roumain, hongrois, tchèque, turc, indonésien, vietnamien, russe, ukrainien, grec, arabe, thaï, japonais, coréen, chinois simplifié et chinois traditionnel. Le sélecteur est dans la barre du haut ; le défaut est détecté depuis la locale du navigateur et persiste entre les sessions.
Quelle est la précision de la reconnaissance ?
Sur un scan propre à 300 DPI de texte tapé à la machine : 98–99%. Sur une photo nette d'une page imprimée ou d'un ticket : 95%+. Sur une image floue, mal éclairée ou inclinée : 60–80% — le résultat demandera relecture. Chaque résultat affiche un score de confiance pour que vous sachiez où vous tombez dans cette plage.
Et les documents qui mélangent français et anglais ?
Géré automatiquement. Choisissez le français comme primaire et le moteur charge l'anglais comme alphabet secondaire dans le même passage de reconnaissance — ainsi les noms de marque (Excel, WhatsApp, IBAN), les URL et les termes techniques anglais sortent propres à côté du texte français. Un petit badge + EN à côté du sélecteur indique quand ce mode mixte est actif. Le coût est ~30% plus lent et ~2× la mémoire ; on le laisse activé par défaut parce que l'alternative — passage à langue unique sur document mixte — est précisément ce qui produit des noms de marque charabia.
Ça marche avec l'écriture manuscrite ?
Mal. Tesseract est entraîné sur du texte imprimé — cursive, ordonnance manuscrite et notes de cahier l'embrouillent. Pour le manuscrit, Read API de Microsoft et Google Cloud Vision font sensiblement mieux, mais les deux exigent d'envoyer l'image.
Pourquoi le premier lancement est lent ?
Parce que le moteur de reconnaissance — environ 10 Mo de WebAssembly plus un modèle linguistique — se télécharge dans votre navigateur la première fois. Ensuite le moteur reste en cache et la reconnaissance démarre instantanément. La page fonctionne hors-ligne après le premier chargement.
Peut-on l'utiliser sur téléphone ?
Oui. La page est une page web normale qui tourne dans n'importe quel navigateur mobile moderne. Sur les téléphones plus anciens le premier lancement est plus long à cause du téléchargement du moteur ; les suivants sont rapides.
Et les tableaux, mises en page multi-colonnes ou documents complexes ?
Le texte sort en ordre de lecture comme un flux de paragraphes plat — la structure du tableau n'est pas préservée. Pour des PDF où vous avez besoin de lignes et colonnes comme données, utilisez pdf-to-excel. Pour un PDF qui a déjà une couche de texte (la majorité des PDF créés numériquement en ont une), utilisez pdf-to-txt — plus rapide, sans perte et sans besoin d'OCR.
C'est vraiment gratuit ? Il y a des limites ?
Oui — sans compte, sans filigrane, sans limite par export. Le traitement tourne sur votre appareil, donc il n'y a pas de coût serveur à récupérer. Limite pratique de taille : 25 Mo par image pour que le navigateur n'épuise pas la mémoire.