PDF en Texte

Extrayez le texte de tout PDF,
dans votre navigateur.

Récupérez une couche de texte propre depuis n'importe quel PDF — paragraphes préservés, multipage, UTF-8. L'extraction s'exécute dans votre navigateur, donc le fichier ne quitte jamais votre appareil.

Déposez le PDF dont vous voulez extraire le texte
Nous lisons la couche de texte intégrée avec pdf.js — sans OCR, sans serveur.

Vérifiez par vous-même : ouvrez DevTools → onglet Network → déposez un fichier. Constatez zéro upload.

Multipage · Sortie UTF-8 Les PDF scannés nécessitent l'OCR — cet outil ne lit que la couche de texte
Gratuit
Sans inscription
Sans téléversement
Sortie UTF-8
COMMENT ÇA MARCHE

Trois étapes. Votre PDF ne quitte jamais cet onglet.

1

Déposez votre PDF

Choisissez le fichier dont vous voulez extraire le texte. Il se charge dans la mémoire du navigateur, pas sur un serveur.

2

Nous lisons la couche de texte

pdf.js parcourt chaque page, trie les éléments par coordonnée Y et reconstitue les sauts de paragraphe à leur place.

3

Copier ou télécharger .txt

Obtenez du texte brut UTF-8 propre. Copiez-le dans le presse-papiers ou enregistrez-le en .txt — c'est vous qui décidez.

Quand vous voulez le texte, pas le PDF

Les raisons pour extraire le texte d'un PDF tournent presque toujours autour d'une seule chose : amener les mots là où le PDF n'entre pas. Vous voulez coller une citation dans un courriel sans traîner le PDF en pièce jointe. Vous donnez un long document à un assistant IA qui n'accepte que du texte brut. Vous voulez grepper un rapport de 200 pages pour une expression et la recherche du lecteur cache quelque chose. Vous traduisez un contrat et l'outil de traduction veut la source comme un fichier plat. Vous récupérez un manuscrit fini d'un PDF dans un éditeur de texte. Dans tous ces cas, c'est l'emballage qui gêne — les mots vont bien, ils sont juste coincés dans une mise en page difficile à recomposer.

La sortie ici est exactement cela : du texte brut, un gros .txt, dans l'ordre où le PDF se lit. Pas de mise en forme, pas de polices, pas d'images, pas de tableaux comme tableaux. Le travail consiste à libérer les mots.

Ce que « extraire » fait vraiment

Un PDF contient deux sortes de « texte ». Le vrai texte — des caractères dessinés avec des polices que le PDF marque comme lettres — vit dans une couche de texte. L'outil lit cette couche directement. L'autre sorte est du texte qui n'existe que sous forme de pixels : tout ce qui a été scanné, photographié ou capturé en image avant d'être placé dans le PDF. Ces caractères sont des images de lettres, pas des lettres, et aucun extracteur ne les voit comme du texte sans OCR. Il n'y a pas d'étape OCR ici.

Deux tests rapides vous disent quel PDF vous avez. Ouvrez-le dans n'importe quel lecteur, cliquez et faites glisser sur un paragraphe : si le texte se sélectionne proprement, il y a une couche de texte et l'extraction marchera. Si le curseur dessine un rectangle et que rien ne se sélectionne, la page est une image et il faudra d'abord la passer par OCR (dans un autre outil) avant que l'extracteur ait quelque chose à lire.

Comment apparaissent les retours et les paragraphes

Les PDF ne stockent pas les paragraphes. À l'intérieur, une page est un sac de fragments de texte avec des positions — aucune métadonnée disant « fin de paragraphe ici ». Du texte brut lisible sans coupures n'existe pas, donc l'outil les déduit des espaces verticaux : un petit écart entre lignes devient un saut de ligne unique, un écart plus grand (celui que les designers laissent entre paragraphes) devient une ligne vide. Les cas habituels passent : corps de texte, titres, listes. Quand le designer a utilisé des espaces inhabituels pour autre chose, l'outil ne peut pas le deviner et ces endroits peuvent demander une légère retouche.

Les pages sont séparées par une ligne vide en sortie. Si vous ne voulez aucun séparateur de page, un rechercher-remplacer du double saut de ligne par un simple les enlève.

Ce qui ne survit pas à l'extraction

  • Gras, italique, polices, couleur, alignement. Le texte brut est plat. Si vous devez préserver la mise en forme, voyez pdf-to-word.
  • Tableaux. Les cellules deviennent du texte brut dans l'ordre de lecture — généralement ligne par ligne, souvent avec des espacements maladroits. Les tableaux qui doivent rester des tableaux relèvent de pdf-to-excel.
  • Images et diagrammes. Tout ce qui n'était pas du texte dans le PDF n'apparaît pas dans le texte. Pour extraire les images séparément, voyez pdf-to-jpg.
  • En-têtes et pieds de page. Si l'original répétait « Confidentiel — page X sur Y » sur chaque page, le texte extrait fera de même. Un rechercher-remplacer les retire en quelques secondes.
  • Mots coupés par un trait d'union en bout de ligne. Un mot brisé par un trait d'union sortira comme quel-\nque au lieu de quelque. Si cela compte pour la recherche ou le correcteur en aval, une regex -\n → vide arrange ça.
  • Les mises en page multi-colonnes peuvent se mélanger. Un article de recherche en deux colonnes peut sortir avec des phrases de la colonne gauche et droite alternées. Les documents en une colonne — la plupart des rapports, contrats, livres — ne sont pas touchés. Quand un résultat à colonnes mêlées est inutilisable, le plus propre est d'ouvrir le PDF dans un outil qui respecte l'ordre des colonnes avant de réextraire.

Quelques notes pratiques

  1. Si le PDF est protégé par mot de passe, passez-le d'abord par unlock-pdf. Les PDF chiffrés ne peuvent pas être ouverts pour l'extraction de texte.
  2. Pour des PDF très volumineux (centaines de Mo, milliers de pages), l'extraction se fait quand même dans le navigateur. Sur un poste de bureau, c'est rarement un problème ; sur un téléphone avec un scan de 500 pages, la mémoire du navigateur est le plafond. Dans ce cas, sur ordinateur de bureau.
  3. La sortie est en UTF-8. Cyrillique, grec, arabe, chinois, latin avec diacritiques passent proprement, dès lors que le PDF les a stockés comme du vrai texte. Les PDF qui dessinaient des caractères non latins comme des glyphes de sous-ensemble embarqués sans codage correct produisent du charabia à l'extraction — c'est un problème dans le PDF, pas dans l'extracteur. La correction se fait à la source : réexporter avec un encodage Unicode correct.
  4. Modèle de nom de fichier. Un fichier contract.pdf se télécharge en contract.txt. Le PDF sur le disque reste à sa place.

Ce qui arrive à votre fichier

L'extraction tourne dans votre navigateur. Ouvrez les DevTools et regardez l'onglet Network pendant l'opération — aucune requête sortante n'embarque le contenu du fichier. Le PDF reste sur le disque ; le .txt est un nouveau téléchargement à côté.

FAQ

Questions fréquentes

Comment fonctionne l'extraction ?

Nous utilisons pdf.js de Mozilla pour lire la couche de texte intégrée à votre PDF, page par page. Les éléments sont regroupés par coordonnée Y afin que les sauts de paragraphe soient préservés — sans serveur, sans téléversement.

Cela fonctionne-t-il sur les PDF scannés ?

Non. Les scans sont des images de texte, pas du texte — leur extraction nécessite l'OCR, que cet outil n'exécute pas. Si votre PDF provient d'un papier scanné, il vous faudra d'abord un outil OCR.

Mon fichier est-il téléversé quelque part ?

Jamais. L'extraction s'exécute entièrement dans votre navigateur via WebAssembly — vérifiable dans DevTools → Network. Le fichier reste sur votre appareil.

Et les PDF protégés par mot de passe ?

Déverrouillez d'abord le PDF avec notre outil Déverrouiller PDF, puis extrayez. Les flux de contenu chiffrés ne peuvent pas être analysés sans le mot de passe.

Quelle est la limite de taille ?

Jusqu'à 100 Mo. Au-delà, la mémoire du navigateur peut être saturée — essayez d'abord de le diviser avec l'outil Diviser PDF.