PDF у текст

Видобувайте текст із будь-якого PDF,
у вашому браузері.

Витягніть чистий текстовий шар із будь-якого PDF — абзаци збережені, багатосторінковий, UTF-8. Видобування виконується у вашому браузері, тож файл ніколи не залишає пристрою.

Перетягніть PDF, з якого хочете видобути текст
Читаємо вбудований текстовий шар через pdf.js — без OCR, без сервера.

Переконайтеся самі: відкрийте DevTools → вкладку Network → перетягніть файл. Ви побачите, що жодних завантажень на сервер не відбувається.

Багатосторінковий · Вивід UTF-8 Скановані PDF потребують OCR — цей інструмент працює лише з текстовим шаром
Безкоштовно
Без реєстрації
Без завантаження
Вивід UTF-8
ЯК ЦЕ ПРАЦЮЄ

Три кроки. Ваш PDF не залишає цю вкладку.

1

Перетягніть PDF

Виберіть файл, з якого треба видобути текст. Він завантажується в пам'ять браузера, а не на сервер.

2

Читаємо текстовий шар

pdf.js обходить кожну сторінку, сортує елементи за Y-координатою та відновлює розриви абзаців у потрібних місцях.

3

Скопіюйте або завантажте .txt

Отримайте чистий UTF-8 текст. Скопіюйте до буфера або збережіть як .txt — на ваш розсуд.

Коли потрібен текст, а не PDF

Причини витягати текст із PDF майже завжди зводяться до одного: треба перенести слова туди, куди PDF не пускає. Хочеться вставити цитату в листа, не тягнучи PDF як вкладення. Ви годуєте довгий документ AI-асистенту, який приймає лише plain text. Хочете grep'нути 200-сторінковий звіт за однією фразою, а пошук у в'ювері щось приховує. Перекладаєте контракт, і інструмент перекладу хоче джерело як плоский файл. Переносите готову верстку з PDF назад у редактор. У всіх випадках заважає обгортка — слова в порядку, просто сидять у верстці, яку важко зібрати назад.

На виході тут саме це: plain text, один великий .txt, у тому самому порядку, у якому читається PDF. Без форматування, шрифтів, картинок і таблиць-як-таблиць. Завдання — вивільнити слова.

Що насправді робить «витягування»

У PDF сидять два види «тексту». Справжній текст — символи, намальовані шрифтами, які PDF позначає як літери — лежить у текстовому шарі. Цей шар інструмент читає напряму. Другий вид — текст, що існує лише як пікселі: усе відскановане, сфотографоване або скриншотнуте до потрапляння в PDF. Ці символи — картинки літер, а не літери, і жоден витягувач не побачить їх як текст без OCR. OCR-кроку тут немає.

Два швидкі тести скажуть, який у вас PDF. Відкрийте його в будь-якій читалці, клацніть і протягніть мишею по абзацу: якщо текст гарно виділяється — текстовий шар є, і витягування спрацює. Якщо курсор малює прямокутник і нічого не виділяється — сторінка картинка, і спершу треба прогнати через OCR (в іншому інструменті), щоб витягувачу було що читати.

Як виходять переноси рядків і абзаци

У PDF не зберігаються абзаци. Усередині сторінка — мішок текстових фрагментів із позиціями, і ніде немає метаданих «тут кінець абзацу». Зрозумілий plain text без переносів не існує, тому інструмент виводить їх із вертикальних проміжків: маленький проміжок між рядками стає одинарним переносом, великий проміжок (який зазвичай ставлять між абзацами) — порожнім рядком. Звичайні випадки працюють: тіло тексту, заголовки, списки. Якщо дизайнер використав незвичайні інтервали для своїх задач, інструмент не вгадає, і такі місця можуть потребувати легкого правлення.

Сторінки розділяються порожнім рядком. Якщо взагалі не потрібні розділювачі сторінок — find-and-replace, замініть подвійний перенос на одинарний.

Що не переживе витягування

  • Жирний, курсив, шрифти, колір, вирівнювання. Plain text плоский. Якщо потрібне форматування — pdf-to-word.
  • Таблиці. Клітинки стають plain text у порядку читання — зазвичай рядок за рядком, часто з незручними пробілами. Якщо таблиці мають лишитися таблицями — pdf-to-excel.
  • Картинки і діаграми. Те, що в PDF не було текстом, у текст не потрапляє. Щоб витягти картинки окремо — pdf-to-jpg.
  • Колонтитули. Якщо в оригіналі на кожній сторінці повторювалося «Конфіденційно — стор. X з Y», у витягнутому тексті буде те саме. Find-and-replace прибирає за секунди.
  • Слова, перенесені з дефісом через переніс рядка. Слово, розірване переносом, вийде як щось-\nтак, а не щось-так. Якщо важливо для подальшого пошуку чи орфографії — регулярка -\n → порожньо лагодить.
  • Багатоколонкова верстка може перемішатися. У двоколонковій науковій статті речення з лівої та правої колонок можуть чергуватися. Одноколонкові документи — більшість звітів, контрактів, книг — цього не торкається. Якщо перемішаний результат непридатний, чистіше відкрити PDF в інструменті, що поважає порядок колонок, до повторного витягування.

Кілька практичних нотаток

  1. Якщо PDF під паролем, спершу через unlock-pdf. Зашифрований PDF не можна відкрити для витягування тексту.
  2. Для дуже великих PDF (сотні МБ, тисячі сторінок) витягування все одно йде в браузері. На десктопі це рідко проблема; на телефоні з 500-сторінковим сканом упирається в пам'ять. У такому разі — на десктоп.
  3. Вивід у UTF-8. Кирилиця, грецька, арабська, китайська, латиниця з діакритикою переживають усе, якщо в PDF вони зберігалися як справжній текст. PDF, у яких не-латинські символи малювалися як embedded subset glyphs без правильної кодування, при витягуванні дають сміття — це проблема самого PDF, а не витягувача. Лікується на боці джерела — реекспортом з правильним Unicode-кодуванням.
  4. Ім'я файлу. Файл contract.pdf завантажується як contract.txt. PDF на диску лишається на місці.

Що відбувається з вашим файлом

Витягування йде у вашому браузері. Відкрийте DevTools і простежте вкладку Network під час операції — вихідних запитів зі вмістом файлу немає. PDF лишається на диску; .txt — нове завантаження поряд.

FAQ

Часті запитання

Як працює видобування?

Ми використовуємо pdf.js від Mozilla, щоб посторінково читати вбудований текстовий шар вашого PDF. Елементи групуються за Y-координатою, тож розриви абзаців зберігаються — без сервера, без завантаження.

Чи працює це зі сканованими PDF?

Ні. Скани — це зображення тексту, а не сам текст; видобути їх можна лише через OCR, який цей інструмент не запускає. Якщо ваш PDF створений зі сканованого паперу, спочатку скористайтеся інструментом OCR.

Чи завантажується мій файл кудись?

Ніколи. Видобування цілком виконується у вашому браузері через WebAssembly — це можна перевірити в DevTools → Network. Файл лишається на вашому пристрої.

А як щодо PDF, захищених паролем?

Спершу зніміть захист нашим інструментом Розблокувати PDF, а потім видобувайте текст. Зашифровані потоки контенту неможливо розібрати без пароля.

Який ліміт розміру файлу?

До 100 МБ. Більші файли можуть вичерпати пам'ять браузера — спробуйте спочатку поділити їх інструментом Розділити PDF.