PDF a Excel

PDF a Excel
Online

Extrae tablas de PDF en libros de Excel editables. Detección y parsing ocurren por completo en tu navegador.

Suelta tu PDF
Detectamos las tablas y las exportamos como un XLSX limpio.

Compruébalo tú mismo: abre DevTools → pestaña Network → suelta un archivo. Mira cómo no se sube nada.

Tablas detectadas Funciona sin conexión tras la primera carga
Gratis
Sin registro
Sin subida
Tablas preservadas
CÓMO FUNCIONA

Tres pasos. Cero subidas.

1

Suelta el PDF

Se carga en la memoria del navegador.

2

Detecta tablas

Encontramos los límites de las tablas y parseamos las celdas en el cliente.

3

Descarga el XLSX

Abre en Excel, Numbers o Google Sheets.

Cuando la tabla está en un PDF y tiene que volver a ser una tabla

Las situaciones suelen aparecer detrás de la elección de formato de otra persona. El banco manda el extracto en PDF y quieres pasar las transacciones a una hoja de cálculo para sumar una categoría. La lista de precios del proveedor llegó en PDF y quieres compararla con el trimestre anterior. Un regulador publica las tablas de datos solo en PDF y las necesitas como celdas para ordenar y filtrar. Un informe scrapeado está en PDF y quieres cada fila como fila. En todos estos casos los números existen; sencillamente no se comportan como números porque están atrapados en una maqueta.

El trabajo aquí es recuperar filas y columnas: coger el PDF, devolver un .xlsx en el que cada página es su propia hoja, cada fila es una fila y cada columna es una columna. A partir de ahí puedes ordenar, filtrar, sumar, hacer tablas dinámicas — para lo que sirven las hojas de cálculo.

Por qué esto es una conjetura — y bastante buena

Los PDF no almacenan tablas. Por dentro, una página es un flujo plano de fragmentos de texto con posiciones x/y en el lienzo. En ningún sitio dice «esto es una fila» ni «aquí empieza una columna» — esas estructuras solo existen en tu ojo cuando lees. Recuperarlas significa deducir la rejilla a partir de dónde está el texto.

La herramienta lo hace en varios pasos. Primero agrupa los fragmentos en filas según y: si dos fragmentos están verticalmente a más o menos media altura de línea, pertenecen a la misma fila. Luego, dentro de la fila, los fragmentos cercanos en horizontal se funden en una celda (interletraje normal) y las separaciones más amplias se vuelven límites de celda (calles entre columnas). Finalmente mira dónde empiezan las celdas a lo largo de toda la página, encuentra las posiciones x dominantes y las trata como centros de columna — cada celda va a la columna más cercana. Sale la rejilla rectangular que la hoja de cálculo necesita.

Lo que el algoritmo hace bien

  • Tablas financieras clásicas — extractos bancarios, facturas, listas de precios, informes de gastos. Una fila por registro, calles claras entre columnas, números alineados a la derecha: exactamente el caso para el que se ajustó la heurística, y suele salir limpio.
  • Entradas de una sola línea. Cuando cada registro cabe en una línea, la detección de filas es fiable.
  • Tablas que ocupan todo el ancho de página. La detección de columnas funciona mejor cuando las columnas están bien separadas y se mantienen iguales por la página.
  • Alineaciones a derecha y a izquierda. La herramienta maneja ambas — lo importante es una calle reconocible entre columnas.

Donde le cuesta

  • Celdas con salto de línea. Una celda cuyo valor pasa a una segunda línea — descripción larga de un producto, dirección multilínea — suele dividirse en dos filas. Se arregla con un retoque manual ligero en la hoja (o mejor con pdf-to-txt y reconstruir la tabla a mano si el retoque no compensa).
  • Celdas combinadas. Un encabezado que abarca visualmente dos columnas aparece solo en una — la más cercana. La combinación se ve como un valor en columna A y un B vacío.
  • Dos tablas una al lado de otra. El detector de columnas las ve a la vez y puede aplastarlas en una tabla ancha. Cortar el PDF por la mitad antes ayuda.
  • Texto corrido en la misma página que la tabla. Un párrafo encima de la tabla aporta sus propias «filas» de texto — unas pocas líneas que en realidad no son filas, fáciles de borrar.
  • Tablas multipágina. Cada página se convierte en su propia hoja. Para coserlas en una tabla continua, copia y pega los bloques de datos tras la extracción.
  • PDF escaneados. El mismo límite que cualquier extracción de texto: si la página es una imagen (extracto escaneado, recibo fotografiado), no hay nada que leer. Antes, OCR en otra herramienta.

Lo que recibes al final

Un archivo .xlsx. Cada página del PDF se convierte en su propia hoja con nombre Page 1, Page 2, etc. Se abre en Excel, Numbers, Google Sheets, LibreOffice — en cualquiera. Las celdas son valores planos; sin formato, sin fórmulas, sin estilos. La gracia es que los números ahora son números y las columnas son columnas.

Si prefieres CSV en lugar de xlsx, guarda la hoja como CSV desde tu aplicación — está a un menú.

Notas prácticas

  1. Si el PDF tiene contraseña, antes pásalo por unlock-pdf. Los PDF cifrados no se pueden abrir para extraer celdas.
  2. Para tablas muy anchas ayuda rotar el PDF fuente a horizontal antes de extraer — menos columnas, calles más limpias. La rotación se hace en edit-pdf.
  3. Si solo necesitas el texto sin estructura, pdf-to-txt es más rápido y el resultado se reflujo más fácil.
  4. La operación inversa — meter una hoja de Excel en un PDF — es excel-to-pdf.

Qué pasa con tu archivo

La extracción se ejecuta en tu navegador. Abre las DevTools y observa la pestaña Network durante la operación — ninguna petición saliente con el contenido del archivo. El PDF queda en disco; el .xlsx es una descarga nueva al lado.

FAQ

Preguntas frecuentes

¿Se sube mi PDF?

No. Detección y parsing ocurren por completo en tu navegador. El archivo no sale del dispositivo.

¿Funciona con PDF escaneados (OCR)?

Las tablas escaneadas necesitan OCR para convertirse en celdas editables. Los PDF basados en texto (con texto seleccionable) se extraen directamente.

¿Qué precisión tiene la detección?

Tablas con líneas y cuadrículas bien espaciadas se extraen limpias. Celdas combinadas y tablas sin bordes pueden requerir revisión manual.

¿Puedo elegir páginas?

Sí. Define un rango de páginas para extraer tablas solo de lo que necesites.