PDFマスキング

PDF内テキストの黒塗り
ブラウザで.

黒塗りしたい単語を入力 — すべてのページのすべての出現箇所が覆われます。アップロード・漏洩なし。(視覚的マスキングで、フォレンジック品質ではありません — FAQ参照。)

マスキングするPDFをドロップ
マスキングダイアログを開いた状態でエディタが起動します。

自分で確認してください:DevToolsを開く → Networkタブ → ファイルをドロップ。アップロードがゼロであることを確認できます。

入力検索 · 黒矩形 全ページの全一致を覆う
無料
登録不要
アップロード不要
入力検索 · 黒矩形
仕組み

3ステップ。ファイルはこのタブから出ません。

1

PDFをドロップ

マスクしたいファイルを選択。サーバーではなくブラウザのメモリに読み込まれます。

2

パターンを入力

氏名・メール・電話番号など — 1行に1つ、またはカンマ区切り。すべての一致を見つけます。

3

マスク済みコピーをダウンロード

一致箇所はすべてのページで不透明な黒矩形で覆われます。元ファイルはそのままです。

共有したくないテキストを覆う

PDFをリダクト(墨消し)する理由はたいてい、文書の一部を隠しつつ残りを読める状態に保つことにあります。相手方の自宅住所が含まれた契約書が、その住所を見るべきでない第三者の閲覧者に回ります。医療紹介状が保険会社と共有され、患者識別子を覆いたい。財務報告書が役員配布資料に添付されますが、ユニットレベルの口座番号は覆う必要があります。提案書を候補ベンダーに見せる際、予算行を黒塗りにして数字に係留しないようにする。ここでの仕事は小さく予測可能 — 隠したい単語やフレーズを入力し、ツールが各ページのすべての出現箇所に不透明な黒い四角を描きます。

機微なものを墨消しする前にこれを慎重に読んでください: これは視覚的な墨消しであり、フォレンジックな墨消しではありません。 黒い四角は画面と印刷でテキストを覆いますが、根底のテキストはファイル内に残ります。PDFツールを持つ誰でも、コピーペースト、検索、コンテンツストリーム検査で抽出できます。気軽な読み手にテキストを見せたくない場面に向きます — 草稿の送付、同僚に対して非公開の口座番号を隠す、スクリーンショット上で電話番号をマスクする、など。情報公開法に基づく公開、裁判所提出物、敵対者がよく見る文書には適していません

マッチングの仕組み

1つ以上のパターンを入力します。各パターンは、PDF内のテキスト断片に対する大文字小文字を区別しないwhole-substring検索として照合されます。断片がパターンを含むと、その断片の境界矩形(bounding-rect)全体に黒い四角が描かれます。

実用的な帰結:

  • 部分文字列マッチで全単語ではない。 パターンartは「art」「artist」「smart」「martin」を覆います。十分に具体的なパターンに — 氏名のフルネーム、口座番号の完全形、メールアドレスの完全形。
  • 大文字小文字を区別しない。 パターンAnnaは「Anna」「anna」「ANNA」を覆います。
  • 正規表現もワイルドカードもなし。 入力したものが、マッチさせる文字どおりの並びです。
  • カバレッジは断片単位。 PDFはテキストを断片で保持し、描かれる境界矩形は断片全体を覆います。パターンが、より多くのテキストを含む断片の中の一語にヒットすると、周囲のテキストも覆われます。多くの場合これが望むこと。時に予想以上に覆われていることがあります。
  • 断片境界をまたぐパターンは外れる。 「山田 太郎」はあるPDFでは1断片、別のPDFでは2断片。分割されている場合、結合した文字列上ではマッチしません。部分を別パターンとして追加: 山田 太郎山田太郎

黒い四角は検出された境界ボックスの周囲に1ポイントのパディングを持ちます — グリフのサブピクセル配置のため、元のテキストの帯が縁から覗かないように。

何が隠れる vs. 何がファイルに残る

このセクションは他のどれより重要です。黒い四角はページのコンテンツストリーム内の描画指示です。元のテキストもコンテンツストリームの中に、その下にあります。PDFリーダーは順番に表示します。先にテキスト、次にその上に四角、視覚的には四角が勝ちます。しかしテキスト自体は削除されません。

具体的には:

  • コピー&ペーストで元のテキストを取り戻せる。 Adobe Readerで墨消し領域を選択してコピーすると、隠そうとした単語が出てきます。黒い四角は選択不可、その下のテキストは選択可能。
  • 検索エンジンがテキストを見つける。 墨消し済みPDFがウェブサイトに上げられた場合、墨消しした名前で検索すると文書が浮上します。
  • 別のPDFツールで再保存すると両方のレイヤを保持する場合がある。 あるツールはコンテンツストリームを再構築して墨消しを落とすことがあり、別のツールは保つ。
  • フォレンジックツールは元を容易に取り出せる。 どんなPDFパーサもすべてのテキストコンテンツストリームを列挙できます。四角は単に別の描画。

根底のテキストが本当に消えていなければならない場面 — 透明性法に基づく公開、裁判所での証拠、敵対者へ渡る文書すべて — には別のワークフローが必要です。元の文書を機微なテキストを削除して再エクスポートするか、ページを画像化してOCRし直す(これによりテキストレイヤが永久に削除されます)。

残るもの、残らないもの

  • ページの可視内容は同じまま。 マッチしなかったものはすべて、まったく以前のまま — 同じフォント、同じレイアウト、同じ画像。
  • しおり、注釈、リンク、フォームフィールド、すべて残る。 四角は追加された描画。他は何も再構築されません。
  • 元のテキストは下に保持される。 上のセクションを参照。これが中心的な制限。
  • 電子署名は無効になる。 文書への変更はすべて、四角の追加を含め、署名のバインディングを切ります。
  • 暗号化PDFは先にアンロックが必要。 墨消し前にunlock-pdfでパスワードを通してください。

何かおかしいときは

  • 「At least one redaction pattern required」。 パターン一覧が空でした。最低1語または1フレーズを入力してください。
  • パターンはマッチしたが想定より多く覆った。 PDFはその行を1断片で保存し、四角は断片単位。通常は許容範囲。問題なら、テキストを正しく削除した形で元を再エクスポートしてください。
  • パターンが期待どおりにマッチしなかった。 よくある3つの原因: (1) テキストがスキャン画像にあり、テキストレイヤにない — ツールは画像中のテキストを見られません。先にpdf-to-txtまたは専用ツールでOCR。 (2) パターンが断片をまたぐ — 短いパターンに分ける。 (3) PDFがエンコーディング不全の非ラテン文字を使う — ビューワからコピーして本当に何があるか確かめるのが最速の診断。
  • 墨消ししたが同僚がコピペでテキストを取り出した。 文書化どおりに動作 — 視覚的な墨消しのみ。本当の削除には元から再エクスポート。

実用上のメモ

  1. 視覚的な秘匿に使う。敵対的シナリオには使わない。 抽出を試みない友人へ送る草稿の名前隠し: 良い。相手方がフォレンジックツールを走らせる裁判所提出物の名前隠し: 良くない。
  2. 汎用パターンより具体的パターン。 +81-3-555-0123を墨消しし、0123ではない。[email protected]を墨消しし、janeではない。具体パターンは過剰被覆が少なく、意図したものを同等に隠します。
  3. コピーで検証する。 墨消し後、結果をビューワで開き、墨消し領域を選択してコピー。元のテキストが出てくれば制限を確認したことになります — 視覚的秘匿で十分なときだけ進めてください。
  4. 恒久的削除には元を使う。 文書がWord由来なら、Wordを編集して再エクスポート。データベース由来なら機微なフィールドなしで再クエリ。PDF墨消しツールは元が手元にないときのもの。
  5. 元ファイルは無傷で残ります。 ダウンロードされるのは新しい墨消し済みPDF。ディスク上の元は変わりません。

あなたのファイルに何が起きているか

墨消しはあなたのブラウザ内で動きます。入力したパターンとファイル内容はこのタブを離れません。DevToolsを開いて操作中のNetworkタブを見てください — ファイル内容やパターンを伴う送信リクエストはありません。PDFはディスクに残り、墨消し版はその隣の新しいダウンロードです。

FAQ

よくある質問

すべての出現箇所がマスクされますか?

はい — すべてのページを走査し、入力したすべてのパターンのすべての一致を覆います。「最初の出現のみ」モードはなく、設計上マスキングはグローバルです。

これはフォレンジック品質のマスキングですか?

いいえ。当MVPは一致箇所に不透明な矩形を描画します — 視覚的にはマスクされていますが、元のテキストはPDFストリーム内に残ります。フォレンジック品質のマスキング(ファイルからテキストを完全削除)には、Adobe Acrobat Proなどのデスクトップツールをご利用ください。判断材料になるよう、このトレードオフを率直にお伝えしています。

では、なぜ視覚的マスキングなのですか?

多くの用途 — サンプル契約書の共有、スクリーンショットの電話番号隠し、ポートフォリオの氏名消去 — では視覚的マスキングで十分で、Acrobatを起動するよりずっと高速です。相手側がテキスト抽出をする想定の文書には使わないでください。

テキストの代わりに領域指定でマスクできますか?

領域選択でのマスキング(ページ上で矩形をドラッグ)はロードマップ入りです。現バージョンは入力検索方式で、メール・氏名・電話番号など文字列ベースのパターンに最適です。

ファイルはどこへ送られますか?

どこにも送られません。マスキングはこのタブ内で完結します。DevTools → Networkで、アップロードがないことを確認できます。