Замазать текст в PDF
в вашем браузере.
Введите слова для замазывания — каждое вхождение на каждой странице будет закрыто. Без загрузки, без утечки. (Визуальная редакция, не уровень криминалистики — см. FAQ.)
Убедитесь сами: откройте DevTools → вкладку Network → перетащите файл. Никаких загрузок на сервер не произойдёт.
Три шага. Ваш файл не покидает эту вкладку.
Перетащите PDF
Выберите файл для замазывания. Он загружается в память браузера, а не на сервер.
Введите шаблоны
Имена, e-mail, телефоны — по одному в строке или через запятую. Мы находим каждое совпадение.
Скачайте замазанную копию
Каждое совпадение закрывается непрозрачным чёрным прямоугольником на каждой странице. Оригинал не меняется.
Закрыть текст, который не должен уйти
Причины редактировать (redact) PDF обычно про то, чтобы скрыть части документа, оставив остальное читаемым. Договор с домашним адресом контрагента идёт третьему рецензенту, которому этот адрес видеть не нужно. Медицинское направление делится со страховой, где идентификатор пациента должен быть закрыт. Финансовая отчётность прикладывается к пакету для совета директоров, но номера счетов на уровне юнита должны быть закрыты. Проектное предложение показывают кандидатам-подрядчикам с зачёркнутой строкой бюджета, чтобы не якорить их на цифре. Задача здесь маленькая и предсказуемая: вводите слова или фразы, которые надо скрыть, и инструмент рисует непрозрачный чёрный прямоугольник над каждым вхождением на каждой странице.
Прочтите внимательно перед тем как редактировать что-либо чувствительное: это визуальная редакция, не криминалистическая. Чёрные прямоугольники закрывают текст на экране и при печати, но сам текст остаётся в файле. Любой с PDF-инструментом извлечёт его через копирование, поиск или инспекцию content-stream. Это уместно, когда «случайные» читатели не должны видеть текст — отправка черновика, скрытие непубличных номеров счетов от коллеги, маскировка номера телефона на скриншоте. Это не уместно для публикаций по закону о доступе к информации, судебных подач или всего, где противник будет искать всерьёз.
Как работает совпадение
Вы вводите один или несколько паттернов. Каждый паттерн ищется как нечувствительный к регистру whole-substring против фрагментов текста внутри PDF. Когда фрагмент содержит ваш паттерн, над всем bounding-rect фрагмента рисуется чёрный прямоугольник.
Практические следствия:
- Подстрочное совпадение, не по целому слову. Паттерн
artзакроет «art», «artist», «smart», «martin». Делайте паттерны достаточно специфичными — полные имена, полные номера счетов, полные e-mail. - Регистронезависимо. Паттерн
Анназакроет «Анна», «анна», «АННА». - Никаких regex или wildcard. Что вы набрали — то и буквальная последовательность для совпадения.
- Покрытие пофрагментное. PDF хранит текст фрагментами; рисуемый bounding rect закрывает целый фрагмент. Если паттерн зацепил одно слово во фрагменте, в котором больше текста, окружающий текст тоже закроется. Обычно это то, что нужно; иногда увидите больше закрытого, чем ждали.
- Паттерны через границы фрагментов не ловятся. «Иван Петров» — один фрагмент в одних PDF и два в других. Если разнесён, паттерн не сработает на склеенной строке. Добавьте части как отдельные паттерны:
Иван Петров,Петров,Иван.
У чёрного прямоугольника есть 1 пункт паддинга вокруг найденного bounding box — учёт субпиксельного размещения глифов, чтобы полоски исходного текста не выглядывали по краям.
Что скрыто vs. что остаётся в файле
Эта секция важнее любой другой. Чёрный прямоугольник — это инструкция рисования в content-stream страницы. Исходный текст тоже в content-stream, под ним. PDF-ридеры отображают их по порядку: сначала текст, потом прямоугольник сверху, так что прямоугольник побеждает визуально. Но сам текст не удаляется.
Что это означает конкретно:
- Копирование возвращает исходный текст. Выделение редактированной области в Adobe Reader и копирование даёт слова, которые вы пытались скрыть. Чёрный прямоугольник не выделяется; текст под ним — выделяется.
- Поисковики находят текст. Если редактированный PDF загружен на сайт, поиск по скрытому имени вернёт документ.
- Пере-сохранение в другом PDF-инструменте может сохранить оба слоя. Некоторые инструменты пере-собирают content-stream и могут сбросить редакции; другие сохраняют.
- Криминалистические инструменты извлекают исходник легко. Любой PDF-парсер перечислит все content-streams текста. Прямоугольник — это просто отдельный рисунок.
Для ситуаций, где подлежащий текст должен реально исчезнуть — публикации в рамках законов о прозрачности, доказательства в суде, всё, что уйдёт противнику — нужен другой workflow: пере-экспортируйте исходный документ с удалённым чувствительным текстом, или конвертируйте страницу в изображение и пере-OCR (что навсегда удаляет текстовый слой).
Что переживёт операцию, а что нет
- Видимое содержимое страниц остаётся прежним. Всё, что не совпало, остаётся ровно как было — те же шрифты, та же вёрстка, те же изображения.
- Закладки, аннотации, ссылки, поля форм — всё переживает. Прямоугольники — это добавленные рисунки; ничто другое не пере-собирается.
- Исходный текст сохраняется под прямоугольником. См. секцию выше. Это центральное ограничение.
- Цифровые подписи аннулируются. Любая модификация документа, включая добавление прямоугольников, ломает связку с подписью.
- Зашифрованные PDF нужно сначала разблокировать. Прогоните через unlock-pdf с паролем перед редакцией.
Если что-то выглядит не так
- «At least one redaction pattern required». Список паттернов был пуст. Введите хотя бы одно слово или фразу.
- Паттерн совпал, но закрыл больше текста, чем ожидалось. PDF хранит ту строку как один фрагмент, и прямоугольник пофрагментный. Обычно приемлемо; если проблема, источник нужно пере-экспортировать с удалённым текстом правильно.
- Паттерн не совпал с тем, что я ожидал. Три обычные причины: (1) текст в сканированном изображении, не в текстовом слое — инструмент не видит текст в изображении; сначала OCR через pdf-to-txt или специализированный инструмент. (2) Паттерн пересекает фрагменты — разбейте на короткие. (3) PDF использует нелатинские символы со сломанной кодировкой; копирование из просмотрщика для проверки того, что там реально, — самая быстрая диагностика.
- Я отредактировал, но коллега извлёк текст через копирование. Работает как задокументировано — только визуальная редакция. Для реального удаления — пере-экспорт из источника.
Практические заметки
- Используйте для визуального скрытия, не для враждебных сценариев. Скрыть имя в черновике, отправляемом другу, который не будет извлекать: ок. Скрыть имя в судебной подаче, где противоположная сторона прогонит криминалистические инструменты: не ок.
- Специфические паттерны вместо общих. Редактируйте
+7-495-555-0123, не0123. Редактируйте[email protected], неjane. Специфические паттерны меньше over-match и одинаково скрывают то, что вы хотели. - Проверяйте копированием. После редакции откройте результат в просмотрщике, выделите редактированную область, скопируйте. Если выйдет исходный текст — вы подтвердили ограничение; продолжайте, только если визуального скрытия достаточно.
- Для долговременного удаления — используйте источник. Если документ из Word — редактируйте Word и пере-экспортируйте. Если из БД — переспросите без чувствительных полей. Инструмент редакции PDF — для случаев, когда источника нет.
- Исходный файл остаётся нетронутым. Скачивается новый редактированный PDF; источник на диске не меняется.
Что происходит с вашим файлом
Редакция работает в браузере. Введённые паттерны и содержимое файла никогда не покидают эту вкладку. Откройте DevTools и наблюдайте вкладку Network во время операции — никаких исходящих запросов с содержимым файла или паттернами. PDF остаётся на диске; редактированная версия — это новая загрузка рядом.
Частые вопросы
Будет ли замазано каждое вхождение?
Да — мы проходим по каждой странице и закрываем каждое совпадение по каждому введённому шаблону. Режима «только первое вхождение» нет; замазывание глобальное по замыслу.
Это редакция криминалистического уровня?
Нет. Наш MVP рисует непрозрачные прямоугольники поверх каждого совпадения — визуально это редакция, но исходный текст остаётся в потоке PDF. Для криминалистической редакции (полное удаление текста из файла) используйте десктопный инструмент вроде Adobe Acrobat Pro. Мы открыто говорим об этом компромиссе.
Почему тогда визуальная редакция?
Для большинства случаев — поделиться образцом договора, скрыть телефон на скриншоте, замазать имена в портфолио — визуальной редакции достаточно, и это быстрее, чем запускать Acrobat. Не используйте её для документов, из которых противоположная сторона будет извлекать текст.
Можно ли замазывать область вместо текста?
Замазывание по области (потянуть прямоугольник на странице) — в дорожной карте. Текущая версия использует поиск по тексту, что отлично подходит для e-mail, имён, телефонов и любых строковых шаблонов.
Куда уходит мой файл?
Никуда. Замазывание происходит полностью в этой вкладке. Проверьте в DevTools → Network — загрузки не происходит.