PDF в Excel

PDF в Excel
онлайн

Извлекайте таблицы из PDF в редактируемые книги Excel. Обнаружение и парсинг происходят целиком в вашем браузере.

Перетащите PDF
Мы обнаруживаем таблицы и экспортируем их в аккуратный XLSX.

Убедитесь сами: откройте DevTools → вкладку Network → перетащите файл. Никаких загрузок на сервер не произойдёт.

Таблицы определяются автоматически После первой загрузки работает офлайн
Бесплатно
Без регистрации
Без загрузки
Сохранение таблиц
КАК ЭТО РАБОТАЕТ

Три шага. Ноль загрузок.

1

Перетащите PDF

Загрузите в память браузера.

2

Обнаружение таблиц

Находим границы таблиц и парсим ячейки на стороне клиента.

3

Скачайте XLSX

Откройте в Excel, Numbers или Google Sheets.

Когда таблица сидит в PDF, а нужна как таблица

Поводы появляются обычно после чужого выбора формата. Банк прислал выписку PDF, а вам надо положить транзакции в таблицу и просуммировать категорию. Прайс от поставщика в PDF, а вы хотите сравнить его с прошлым кварталом. Регулятор публикует таблицы данных только как PDF, и нужно, чтобы это были ячейки — отсортировать и отфильтровать. Скрапнутый отчёт в PDF, и вы хотите, чтобы каждая строка была строкой. Во всех случаях цифры есть; просто они не ведут себя как цифры, потому что заперты в вёрстке.

Задача здесь — восстановить строки и колонки: взять PDF, отдать .xlsx, в котором каждая страница — отдельный лист, каждая строка — строка, каждая колонка — колонка. Дальше можно сортировать, фильтровать, суммировать, делать сводные — то, ради чего нужны таблицы.

Почему это догадка, и довольно неплохая

PDF не хранит таблиц. Внутри страница — плоский поток текстовых фрагментов с координатами x/y на холсте. Никто не говорит «это строка» или «здесь начинается колонка» — эти структуры существуют лишь у вас в глазах, когда вы читаете. Восстановить их — значит вывести сетку из позиций самого текста.

Инструмент делает это в несколько этапов. Сначала группирует фрагменты текста в строки по y: если два фрагмента отстоят друг от друга по вертикали примерно на полстроки, они в одной строке. Дальше внутри строки фрагменты, расположенные близко по горизонтали, сливаются в одну ячейку (обычные межбуквенные интервалы), а более широкие промежутки становятся границами ячеек (зазоры между колонками). Наконец, инструмент смотрит, где ячейки начинаются по всей странице, находит доминирующие x-координаты и трактует их как центры колонок — каждая ячейка попадает в ту колонку, к которой ближе. Получается прямоугольная сетка, которую ждёт таблица.

Что алгоритм берёт правильно

  • Простые финансовые таблицы — выписки, счета, прайсы, отчёты по расходам. Одна строка на запись, чёткие зазоры между колонками, числа прижаты вправо: ровно тот случай, под который писалась эвристика, и обычно всё проходит как надо.
  • Однострочные записи. Когда каждая запись помещается в строку, обнаружение строк надёжно.
  • Таблицы во всю ширину страницы. Поиск колонок работает лучше всего, когда колонки разнесены и стабильны по странице.
  • Прижим по правому и по левому краю. Инструмент справляется с обоими — важна различимая щель между колонками.

Где у него трудности

  • Ячейки с переносом. Ячейка, значение которой уехало на вторую строку — длинное описание товара, многострочный адрес — обычно делится на две строки. Лечится лёгкой ручной правкой в таблице (или прогоном через pdf-to-txt и сборкой таблицы вручную, если правка не стоит свеч).
  • Объединённые ячейки. Заголовок, визуально перекрывающий две колонки, попадёт только в одну — ту, к которой ближе. Объединение увидите как значение в колонке A и пустое B.
  • Две таблицы рядом. Детектор колонок видит обе сразу и может слепить их в одну широкую. Помогает заранее разрезать PDF пополам.
  • Текст на одной странице с таблицей. Абзац над таблицей даёт свои «строки» текста — несколько строк, которые на самом деле не строки, легко удалить.
  • Многостраничные таблицы. Каждая страница станет отдельным листом. Чтобы сшить обратно в одну непрерывную таблицу, скопируйте и вставьте секции данных после извлечения.
  • Сканированные PDF. То же ограничение, что для любого извлечения текста: если страница — картинка (сканированная выписка, сфотографированный чек), читать нечего. Сначала через OCR в другом инструменте.

Что вы получаете на выходе

Один .xlsx. Каждая страница PDF — отдельный лист с именем Page 1, Page 2 и т. д. Откроется в Excel, Numbers, Google Sheets, LibreOffice — где угодно. Ячейки — простые значения; форматирования, формул, стилей нет. Смысл в том, что цифры теперь цифры, а колонки — колонки.

Если хочется CSV вместо xlsx — сохраните лист как CSV из своего табличного приложения, это в одном меню.

Практические заметки

  1. Если PDF под паролем, сначала через unlock-pdf. Зашифрованные PDF нельзя открыть для извлечения ячеек.
  2. Для очень широких таблиц поможет повернуть исходный PDF в альбомную ориентацию до извлечения — меньше колонок, чище зазоры. Поворот — в edit-pdf.
  3. Если нужен только текст без структуры, pdf-to-txt быстрее, и результат проще переформатировать.
  4. Обратная операция — положить Excel-лист в PDF — это excel-to-pdf.

Что происходит с вашим файлом

Извлечение идёт в вашем браузере. Откройте DevTools и проследите вкладку Network во время операции — исходящих запросов с содержимым файла нет. PDF остаётся на диске; .xlsx — новая загрузка рядом.

FAQ

Частые вопросы

Загружается ли мой PDF?

Нет. Обнаружение и парсинг происходят целиком в вашем браузере. Файл не покидает устройство.

Работает ли со сканами (OCR)?

Сканированные таблицы требуют OCR, чтобы стать редактируемыми ячейками. Текстовые PDF (с выделяемым текстом) извлекаются напрямую.

Насколько точна детекция таблиц?

Таблицы с разметкой и аккуратные сетки извлекаются чисто. Объединённые ячейки и таблицы без границ могут потребовать ручной проверки.

Можно выбрать конкретные страницы?

Да. Задайте диапазон страниц, чтобы извлечь таблицы только оттуда, где они нужны.