PDF у Excel

PDF в Excel
онлайн

Витягуйте таблиці з PDF у редаговані книги Excel. Виявлення й парсинг відбуваються цілком у вашому браузері.

Відпустіть PDF
Ми виявляємо таблиці та експортуємо їх як чистий XLSX.

Переконайтеся самі: відкрийте DevTools → вкладку Network → перетягніть файл. Ви побачите, що жодних завантажень на сервер не відбувається.

Таблиці визначаються автоматично Після першого завантаження працює офлайн
Безкоштовно
Без реєстрації
Без завантаження
Збереження таблиць
ЯК ЦЕ ПРАЦЮЄ

Три кроки. Нуль завантажень.

1

Відпустіть PDF

Завантажте в пам'ять браузера.

2

Виявлення таблиць

Знаходимо межі таблиць і парсимо клітинки на стороні клієнта.

3

Завантажте XLSX

Відкрийте в Excel, Numbers або Google Sheets.

Коли таблиця сидить у PDF, а потрібна як таблиця

Приводи з'являються зазвичай після чужого вибору формату. Банк прислав виписку у PDF, а ви хочете покласти транзакції в таблицю і просумувати категорію. Прайс від постачальника у PDF, а вам треба порівняти з минулим кварталом. Регулятор публікує таблиці даних лише як PDF, і потрібно, щоб це були комірки — посортувати й відфільтрувати. Скрапнутий звіт у PDF, і ви хочете, щоб кожен рядок був рядком. У всіх випадках цифри є; просто вони не поводяться як цифри, бо замкнуті у верстці.

Завдання тут — відновити рядки й колонки: взяти PDF, віддати .xlsx, у якому кожна сторінка — окремий аркуш, кожен рядок — рядок, кожна колонка — колонка. Далі можна сортувати, фільтрувати, сумувати, робити зведені — те, заради чого таблиці й існують.

Чому це здогад, і непоганий

PDF не зберігає таблиць. Усередині сторінка — плоский потік текстових фрагментів з координатами x/y на полотні. Ніхто не каже «це рядок» чи «тут починається колонка» — ці структури існують лише у ваших очах, коли ви читаєте. Відновити їх — означає вивести сітку з позицій самого тексту.

Інструмент робить це у кілька етапів. Спочатку групує фрагменти у рядки за y: якщо два фрагменти відстоять по вертикалі приблизно на пів рядка, вони в одному рядку. Далі в межах рядка фрагменти, розташовані близько по горизонталі, зливаються в одну комірку (звичайні міжлітерні інтервали), а більші проміжки стають межами комірок (зазори між колонками). Нарешті, інструмент дивиться, де комірки починаються по всій сторінці, знаходить домінантні x-координати й трактує їх як центри колонок — кожна комірка потрапляє в найближчу. Виходить прямокутна сітка, яку чекає таблиця.

Що алгоритм бере правильно

  • Прості фінансові таблиці — виписки, рахунки, прайси, звіти про витрати. Один рядок на запис, чіткі зазори між колонками, числа притиснуті праворуч: саме той випадок, під який писалася евристика, і зазвичай усе йде як треба.
  • Однорядкові записи. Коли кожен запис вміщується в рядок, виявлення рядків надійне.
  • Таблиці на всю ширину сторінки. Пошук колонок працює найкраще, коли колонки рознесені й стабільні по сторінці.
  • Притиск по правому і по лівому краю. Інструмент справляється з обома — важлива помітна щілина між колонками.

Де в нього труднощі

  • Комірки з переносом. Комірка, значення якої поїхало на другий рядок — довгий опис товару, багаторядкова адреса — зазвичай ділиться на два рядки. Лікується легкою ручною правкою в таблиці (або прогоном через pdf-to-txt і збиранням таблиці вручну, якщо правка не варта свічок).
  • Об'єднані комірки. Заголовок, що візуально перекриває дві колонки, потрапить лише в одну — ту, до якої ближче. Об'єднання побачите як значення в колонці A та порожнє B.
  • Дві таблиці поряд. Детектор колонок бачить обидві відразу й може злити їх в одну широку. Допомагає заздалегідь розрізати PDF навпіл.
  • Текст на одній сторінці з таблицею. Абзац над таблицею дає свої «рядки» тексту — кілька рядків, які насправді не рядки, легко видалити.
  • Багатосторінкові таблиці. Кожна сторінка стане окремим аркушем. Щоб зшити в одну неперервну таблицю, скопіюйте й вставте секції даних після витягування.
  • Сканована PDF. Те саме обмеження, що для будь-якого витягування тексту: якщо сторінка — картинка (сканована виписка, сфотографований чек), читати нічого. Спершу через OCR в іншому інструменті.

Що ви отримаєте на виході

Один .xlsx. Кожна сторінка PDF — окремий аркуш з іменем Page 1, Page 2 тощо. Відкриється в Excel, Numbers, Google Sheets, LibreOffice — будь-де. Комірки — прості значення; форматування, формул, стилів немає. Сенс у тому, що цифри тепер цифри, а колонки — колонки.

Якщо хочеться CSV замість xlsx — збережіть аркуш як CSV у своєму табличному застосунку, це за одне меню.

Практичні нотатки

  1. Якщо PDF під паролем, спершу через unlock-pdf. Зашифровані PDF не можна відкрити для витягування комірок.
  2. Для дуже широких таблиць допоможе повернути вихідний PDF в альбомну орієнтацію до витягування — менше колонок, чистіші зазори. Поворот — в edit-pdf.
  3. Якщо потрібен лише текст без структури, pdf-to-txt швидший, і результат простіше переформатувати.
  4. Зворотна операція — покласти Excel-аркуш у PDF — це excel-to-pdf.

Що відбувається з вашим файлом

Витягування йде у вашому браузері. Відкрийте DevTools і простежте вкладку Network під час операції — вихідних запитів зі вмістом файлу немає. PDF лишається на диску; .xlsx — нове завантаження поряд.

FAQ

Часті запитання

Чи завантажується мій PDF?

Ні. Виявлення й парсинг відбуваються цілком у вашому браузері. Файл не покидає пристрій.

Чи працює на сканованих PDF (OCR)?

Скановані таблиці потребують OCR, щоб стати редагованими клітинками. Текстові PDF (з виділюваним текстом) витягаються напряму.

Наскільки точне виявлення таблиць?

Лінійовані таблиці й акуратні сітки витягаються чисто. Об'єднані клітинки та безрамкові таблиці можуть потребувати ручної перевірки.

Чи можна обрати конкретні сторінки?

Так. Задайте діапазон сторінок, щоб витягти таблиці лише звідти, де потрібно.