PDF a Texto

Extrae texto de cualquier PDF,
en tu navegador.

Obtén una capa de texto limpia de cualquier PDF — con párrafos preservados, multipágina, UTF-8. La extracción se ejecuta dentro de tu navegador, así que el archivo nunca sale de tu dispositivo.

Suelta el PDF del que quieres extraer texto
Leemos la capa de texto incrustada con pdf.js — sin OCR, sin servidor.

Compruébalo tú mismo: abre DevTools → pestaña Network → suelta un archivo. Mira cómo no se sube nada.

Multipágina · Salida UTF-8 Los PDF escaneados necesitan OCR — esta herramienta solo lee la capa de texto
Gratis
Sin registro
Sin subida
Salida UTF-8
CÓMO FUNCIONA

Tres pasos. Tu PDF nunca sale de esta pestaña.

1

Suelta tu PDF

Elige el archivo del que quieres extraer texto. Se carga en la memoria del navegador, no en un servidor.

2

Leemos la capa de texto

pdf.js recorre cada página, ordena los elementos por coordenada Y y reconstruye los saltos de párrafo donde corresponden.

3

Copia o descarga .txt

Obtén texto plano UTF-8 limpio. Cópialo al portapapeles o guárdalo como .txt — tú decides.

Cuando quieres el texto y no el PDF

Las razones para extraer el texto de un PDF casi siempre giran en torno a lo mismo: llevar las palabras a un sitio donde el PDF no entra. Quieres pegar una cita en un correo sin arrastrar el PDF como adjunto. Le das un documento largo a un asistente de IA que solo acepta texto plano. Quieres greppear un informe de 200 páginas en busca de una frase y la búsqueda del lector esconde algo. Estás traduciendo un contrato y la herramienta de traducción quiere la fuente como archivo plano. Pasas un manuscrito ya maquetado de un PDF de vuelta a un editor de texto. En todos estos casos lo que estorba es la envoltura — las palabras están bien, solo están atascadas en una maqueta difícil de recomponer.

La salida aquí es exactamente eso: texto plano, un único .txt grande, en el mismo orden en que se lee el PDF. Sin formato, sin fuentes, sin imágenes, sin tablas-como-tablas. La tarea es liberar las palabras.

Qué hace en realidad la «extracción»

Un PDF guarda dos clases de «texto». Texto real — caracteres dibujados con fuentes que el PDF marca como letras — vive en una capa de texto. Esa capa la lee la herramienta directamente. La otra clase es texto que solo existe como píxeles: cualquier cosa escaneada, fotografiada o capturada como imagen antes de meterse en el PDF. Esos caracteres son imágenes de letras, no letras, y ningún extractor los ve como texto sin OCR. Aquí no hay paso de OCR.

Dos comprobaciones rápidas dicen qué clase de PDF tienes. Ábrelo en cualquier lector, haz clic y arrastra sobre un párrafo: si el texto se selecciona limpiamente, hay una capa de texto y la extracción funciona. Si el cursor dibuja un rectángulo y nada se selecciona, la página es una imagen y antes habrá que pasarla por OCR (en otra herramienta) para que el extractor tenga algo que leer.

Cómo salen los saltos de línea y los párrafos

Los PDF no almacenan párrafos. Por dentro, una página es un saco de fragmentos de texto con posiciones — ningún metadato dice «aquí termina el párrafo». Texto plano legible sin saltos no existe, así que la herramienta los deduce a partir de los huecos verticales: un hueco pequeño entre líneas se convierte en un salto sencillo, un hueco mayor (el que los diseñadores dejan entre párrafos) en una línea en blanco. Los casos habituales salen bien: cuerpo de texto, encabezados, listas. Si el diseñador usó separaciones inusuales con otra intención, la herramienta no lo adivina y esos puntos pueden requerir un retoque ligero.

Las páginas quedan separadas por una línea en blanco en la salida. Si prefieres no tener separadores de página, un buscar-y-reemplazar del salto doble por un único los retira.

Lo que no sobrevive a la extracción

  • Negrita, cursiva, fuentes, color, alineación. El texto plano es plano. Si necesitas conservar el formato, ve a pdf-to-word.
  • Tablas. Las celdas se vuelven texto plano en orden de lectura — normalmente fila por fila, a menudo con espaciados torpes. Las tablas que tienen que seguir siendo tablas pertenecen a pdf-to-excel.
  • Imágenes y diagramas. Lo que no era texto en el PDF no aparece en el texto. Para sacar las imágenes aparte, ve a pdf-to-jpg.
  • Encabezados y pies. Si el original repetía «Confidencial — página X de Y» en cada página, el texto extraído también lo hará. Un buscar-y-reemplazar los quita en segundos.
  • Palabras partidas con guion al final de línea. Una palabra rota por un guion saldrá como algo-\ngo en lugar de algogo. Si importa para la búsqueda o el corrector posterior, una regex -\n → vacío lo arregla.
  • Las maquetas a varias columnas pueden entreverarse. Un artículo científico a dos columnas puede salir con frases alternadas entre la izquierda y la derecha. Los documentos a una sola columna — la mayoría de informes, contratos, libros — no se ven afectados. Cuando un resultado entreverado es inservible, lo más limpio es abrir el PDF en una herramienta que respete el orden de columnas antes de volver a extraer.

Algunas notas prácticas

  1. Si el PDF tiene contraseña, antes pásalo por unlock-pdf. Los PDF cifrados no se pueden abrir para extraer texto.
  2. Para PDF muy grandes (cientos de MB, miles de páginas) la extracción sigue corriendo en tu navegador. En sobremesa raramente es un problema; en un móvil con un escaneo de 500 páginas el cuello de botella es la memoria del navegador. En ese caso, en sobremesa.
  3. La salida es UTF-8. Cirílico, griego, árabe, chino, latín con tildes salen limpios siempre que en el PDF estuvieran guardados como texto real. Los PDF que dibujaban caracteres no latinos como glifos de subset embebidos sin la codificación correcta producen basura al extraer — es un problema del PDF, no del extractor. El arreglo va por la fuente: reexportar con codificación Unicode correcta.
  4. Patrón de nombre. Un archivo contract.pdf se descarga como contract.txt. El PDF en disco se queda donde estaba.

Qué pasa con tu archivo

La extracción se ejecuta en tu navegador. Abre las DevTools y observa la pestaña Network durante la operación — ninguna petición saliente con el contenido del archivo. El PDF queda en disco; el .txt es una descarga nueva al lado.

FAQ

Preguntas frecuentes

¿Cómo funciona la extracción?

Usamos pdf.js de Mozilla para leer la capa de texto incrustada de tu PDF página a página. Los elementos se agrupan por coordenada Y para que los saltos de párrafo se mantengan — sin servidor, sin subida.

¿Funciona con PDF escaneados?

No. Los escaneados son imágenes de texto, no texto — extraerlos requiere OCR, que esta herramienta no ejecuta. Si tu PDF proviene de papel escaneado, primero necesitarás una herramienta OCR.

¿Se sube mi archivo a algún sitio?

Nunca. La extracción se ejecuta enteramente en tu navegador con WebAssembly — verificable en DevTools → Network. El archivo se queda en tu dispositivo.

¿Y los PDF protegidos por contraseña?

Desbloquea el PDF primero con nuestra herramienta Desbloquear PDF, y luego extrae. Los flujos de contenido cifrados no se pueden parsear sin la contraseña.

¿Cuál es el límite de tamaño?

Hasta 100 MB. Tamaños mayores pueden agotar la memoria del navegador — divídelo antes con la herramienta Dividir PDF.