PDF en Excel en
ligne
Extrayez les tableaux de PDF vers des classeurs Excel éditables. Détection et analyse en local dans votre navigateur.
Vérifiez par vous-même : ouvrez DevTools → onglet Network → déposez un fichier. Constatez zéro upload.
Trois étapes. Zéro téléversement.
Déposez votre PDF
Chargé en mémoire du navigateur.
Détecter les tableaux
Nous trouvons les limites et analysons les cellules côté client.
Téléchargez le XLSX
Ouvrez dans Excel, Numbers ou Google Sheets.
Quand le tableau est dans un PDF et doit redevenir un tableau
Les occasions arrivent en général après le choix de format de quelqu'un d'autre. La banque envoie son relevé en PDF et vous voulez verser les transactions dans un tableur pour additionner une catégorie. La liste de prix d'un fournisseur est en PDF et vous voulez la comparer au trimestre précédent. Une autorité publie ses tableaux de données uniquement en PDF et il vous les faut en cellules pour trier et filtrer. Un rapport extrait par scraping est en PDF et vous voulez chaque ligne comme une ligne. Dans tous ces cas, les chiffres existent ; ils ne se comportent simplement pas comme des chiffres parce qu'ils sont enfermés dans une mise en page.
Le travail ici est de récupérer lignes et colonnes : prendre le PDF, rendre un .xlsx où chaque page devient sa propre feuille, chaque ligne reste une ligne, chaque colonne devient une colonne. À partir de là, vous pouvez trier, filtrer, additionner, faire des tableaux croisés — ce pourquoi un tableur existe.
Pourquoi c'est une supposition — et plutôt bonne
Les PDF ne stockent pas les tableaux. À l'intérieur, une page est un flux plat de fragments de texte avec des positions x/y sur la toile. Rien ne dit « c'est une ligne » ni « la colonne commence ici » — ces structures n'existent que dans votre œil quand vous lisez. Les retrouver, c'est déduire la grille à partir d'où le texte est posé.
L'outil procède en plusieurs étapes. D'abord il regroupe les fragments en lignes selon le y : si deux fragments sont verticalement à environ une demi-hauteur de ligne l'un de l'autre, ils appartiennent à la même ligne. Ensuite, dans une ligne, les fragments rapprochés horizontalement fusionnent en une seule cellule (interligne typographique normal) et les écarts plus larges deviennent des frontières de cellules (gouttières entre colonnes). Enfin, il regarde où les cellules commencent à travers toute la page, repère les positions x dominantes et les traite comme les centres de colonnes — chaque cellule rejoint la plus proche. Il en sort la grille rectangulaire que veut le tableur.
Ce que l'algorithme réussit
- Les tableaux financiers classiques — relevés bancaires, factures, listes de prix, notes de frais. Une ligne par enregistrement, gouttières nettes entre colonnes, chiffres alignés à droite : exactement le cas pour lequel l'heuristique a été calibrée, et ça passe en général proprement.
- Entrées sur une seule ligne. Quand chaque enregistrement tient sur une ligne, la détection des lignes est fiable.
- Tableaux qui tiennent toute la largeur de page. La détection de colonnes fonctionne mieux quand les colonnes sont bien espacées et constantes sur la page.
- Alignements à droite et à gauche. L'outil gère les deux — ce qui compte est un écart visible entre les colonnes.
Là où ça coince
- Cellules avec retour à la ligne. Une cellule dont la valeur déborde sur une seconde ligne — description longue d'un produit, adresse multi-lignes — finit en général scindée en deux lignes. Petite retouche manuelle dans le tableur règle ça (ou alors plutôt pdf-to-txt et reconstruction à la main si la retouche n'en vaut pas la peine).
- Cellules fusionnées. Un titre qui couvre visuellement deux colonnes apparaît dans une seule — celle dont il est le plus proche. La fusion devient une valeur en colonne A et un B vide.
- Deux tableaux côte à côte. Le détecteur de colonnes voit les deux d'un coup et peut les écraser en un seul large tableau. Découper le PDF en moitiés au préalable aide souvent.
- Texte courant sur la même page qu'un tableau. Un paragraphe au-dessus du tableau apporte ses propres « lignes » de texte — quelques lignes qui n'en sont pas, faciles à supprimer.
- Tableaux multi-pages. Chaque page devient une feuille séparée. Pour les recoudre en un tableau continu, copiez-collez les blocs de données après extraction.
- PDF scannés. La même réserve que pour toute extraction de texte : si la page est une image (relevé scanné, ticket photographié), il n'y a rien à lire. Passez d'abord par un OCR dans un autre outil.
Ce que vous obtenez à la fin
Un fichier .xlsx. Chaque page du PDF devient sa propre feuille nommée Page 1, Page 2, etc. Il s'ouvre dans Excel, Numbers, Google Sheets, LibreOffice — au choix. Les cellules sont des valeurs simples ; pas de mise en forme, pas de formules, pas de styles. L'enjeu est que les chiffres sont maintenant des chiffres et les colonnes des colonnes.
Si vous préférez CSV plutôt que xlsx, exportez la feuille en CSV depuis votre tableur — c'est à un menu.
Notes pratiques
- Si le PDF a un mot de passe, passez d'abord par unlock-pdf. Les PDF chiffrés ne peuvent pas être ouverts pour l'extraction de cellules.
- Pour les tableaux très larges, faire pivoter le PDF source en paysage avant extraction aide le détecteur de colonnes — moins de colonnes, écarts plus nets. Le pivot se fait dans edit-pdf.
- Si vous ne voulez que le texte sans structure, pdf-to-txt est plus rapide et le résultat se réagence plus facilement.
- L'opération inverse — placer une feuille Excel dans un PDF — c'est excel-to-pdf.
Ce qui arrive à votre fichier
L'extraction tourne dans votre navigateur. Ouvrez les DevTools et regardez l'onglet Network pendant l'opération — aucune requête sortante ne transporte le contenu du fichier. Le PDF reste sur le disque ; le .xlsx est un nouveau téléchargement à côté.
Questions fréquentes
Mon PDF est-il téléversé ?
Non. Détection et analyse se font entièrement dans votre navigateur. Le fichier ne quitte pas l'appareil.
Fonctionne-t-il sur des PDF scannés (OCR) ?
Les tableaux scannés nécessitent l'OCR pour devenir des cellules éditables. Les PDF textuels (texte sélectionnable) sont extraits directement.
Quelle est la précision de la détection ?
Les tableaux avec lignes et grilles bien espacées s'extraient proprement. Les cellules fusionnées et tableaux sans bord peuvent nécessiter une relecture.
Puis-je choisir des pages ?
Oui. Définissez une plage pour n'extraire que les pages voulues.