Видобувайте текст із будь-якого PDF,
у вашому браузері.
Витягніть чистий текстовий шар із будь-якого PDF — абзаци збережені, багатосторінковий, UTF-8. Видобування виконується у вашому браузері, тож файл ніколи не залишає пристрою.
Три кроки. Ваш PDF не залишає цю вкладку.
Перетягніть PDF
Виберіть файл, з якого треба видобути текст. Він завантажується в пам'ять браузера, а не на сервер.
Читаємо текстовий шар
pdf.js обходить кожну сторінку, сортує елементи за Y-координатою та відновлює розриви абзаців у потрібних місцях.
Скопіюйте або завантажте .txt
Отримайте чистий UTF-8 текст. Скопіюйте до буфера або збережіть як .txt — на ваш розсуд.
Часті запитання
Як працює видобування?
Ми використовуємо pdf.js від Mozilla, щоб посторінково читати вбудований текстовий шар вашого PDF. Елементи групуються за Y-координатою, тож розриви абзаців зберігаються — без сервера, без завантаження.
Чи працює це зі сканованими PDF?
Ні. Скани — це зображення тексту, а не сам текст; видобути їх можна лише через OCR, який цей інструмент не запускає. Якщо ваш PDF створений зі сканованого паперу, спочатку скористайтеся інструментом OCR.
Чи завантажується мій файл кудись?
Ніколи. Видобування цілком виконується у вашому браузері через WebAssembly — це можна перевірити в DevTools → Network. Файл лишається на вашому пристрої.
А як щодо PDF, захищених паролем?
Спершу зніміть захист нашим інструментом Розблокувати PDF, а потім видобувайте текст. Зашифровані потоки контенту неможливо розібрати без пароля.
Який ліміт розміру файлу?
До 100 МБ. Більші файли можуть вичерпати пам'ять браузера — спробуйте спочатку поділити їх інструментом Розділити PDF.