PDF в текст

Извлекайте текст из любого PDF,
в вашем браузере.

Вытащите чистый текстовый слой из любого PDF — абзацы сохраняются, любое количество страниц, UTF-8. Извлечение выполняется в вашем браузере, поэтому файл никогда не покидает устройство.

Перетащите PDF, из которого нужно извлечь текст
Мы читаем встроенный текстовый слой через pdf.js — без OCR, без сервера.
Многостраничный · Вывод UTF-8 Сканированные PDF требуют OCR — этот инструмент работает только с текстовым слоем
Бесплатно
Без регистрации
Без загрузки
Вывод UTF-8
КАК ЭТО РАБОТАЕТ

Три шага. Ваш PDF не покидает эту вкладку.

1

Перетащите PDF

Выберите файл, из которого нужно извлечь текст. Он загружается в память браузера, а не на сервер.

2

Мы читаем текстовый слой

pdf.js обходит каждую страницу, сортирует элементы по Y-координате и восстанавливает разрывы абзацев в нужных местах.

3

Копируйте или скачайте .txt

Получите чистый UTF-8 plain text. Скопируйте в буфер обмена или сохраните как .txt — на ваше усмотрение.

FAQ

Частые вопросы

Как работает извлечение?

Мы используем pdf.js от Mozilla, чтобы постранично читать встроенный текстовый слой вашего PDF. Элементы группируются по Y-координате, поэтому разрывы абзацев сохраняются — без сервера, без загрузки.

Работает ли это со сканированными PDF?

Нет. Сканы — это изображения текста, а не сам текст; их извлечение требует OCR, которое этот инструмент не выполняет. Если ваш PDF получен из отсканированной бумаги, сначала используйте инструмент OCR.

Загружается ли мой файл куда-то?

Никогда. Извлечение целиком выполняется в вашем браузере через WebAssembly — это можно проверить в DevTools → Network. Файл остаётся на вашем устройстве.

А что насчёт PDF, защищённых паролем?

Сначала снимите защиту через наш инструмент Разблокировать PDF, затем извлекайте текст. Зашифрованные потоки контента нельзя разобрать без пароля.

Какой лимит размера файла?

До 100 МБ. Большие файлы могут исчерпать память браузера — попробуйте сначала разделить их инструментом Разделить PDF.