あらゆるPDFからテキストを抽出、
ブラウザ内で。
あらゆるPDFから綺麗なテキストレイヤーを取り出します。段落は保持、複数ページ対応、UTF-8。抽出はブラウザ内で実行されるため、ファイルが端末を離れることはありません。
自分で確認してください:DevToolsを開く → Networkタブ → ファイルをドロップ。アップロードがゼロであることを確認できます。
3ステップ。PDFはこのタブから出ません。
PDFをドロップ
テキストを抽出したいファイルを選びます。ブラウザのメモリに読み込まれ、サーバには送られません。
テキストレイヤーを読み取り
pdf.jsが各ページを走査し、Y座標で項目を並べ替えて、段落区切りを正しい位置に再構築します。
コピーまたは.txtをダウンロード
綺麗なUTF-8プレーンテキストを取得。クリップボードにコピー、または.txtで保存 — お好みで。
PDF ではなく、本文がほしいとき
PDF から本文を取り出したくなる理由はだいたい同じところに行き着きます — 言葉を、PDF が入れない場所まで運びたい。引用をメールに貼り込むときに、PDF を添付として引きずりたくない。長い文書を、平文しか受け付けない AI アシスタントに食べさせたい。200 ページのレポートを 1 つのフレーズで grep したいのに、ビューアーの検索が何かを隠している。契約書を翻訳していて、翻訳ツールが原稿を平らなファイルで欲しがっている。組み終わった原稿を PDF からエディターへ戻したい。どの場面でも邪魔になるのは外側 — 言葉そのものは元気で、ただ組み直しにくい紙面に閉じ込められているだけです。
ここでの出力はまさにそれ — プレーンテキスト、1 つの大きな .txt、PDF を読む順序のままで。書式なし、フォントなし、画像なし、表を表として保つこともしません。仕事は、言葉を解放することです。
「抽出」が実際に行うこと
PDF には 2 種類の「テキスト」があります。本物のテキスト — フォントで描画され、PDF が文字として印を付けたもの — はテキストレイヤーに入っています。ツールはそのレイヤーを直接読み取ります。もう一方は、ピクセルとしてしか存在しないテキスト — PDF に入れる前にスキャンや撮影、スクリーンショットされたものすべてです。これらは文字の絵であって文字ではなく、OCR を経ない限りどんな抽出器もテキストとして見ることはできません。ここに OCR の段階はありません。
手元の PDF がどちらかは、二つの簡単なテストですぐ分かります。任意のリーダーで開き、段落の上をクリックしてドラッグしてみてください。テキストがきれいに選択されればテキストレイヤーがあり、抽出は機能します。カーソルが矩形を描き何も選択されなければ、ページは画像です。OCR を別ツールで通してから来てください — そこで初めて抽出器は読むものを得ます。
改行と段落の出方
PDF は段落を保存しません。内部では、ページは位置情報付きの文字片の袋であり、「ここで段落終わり」と言うメタデータはどこにもありません。改行のないプレーンテキストは読めないので、ツールは縦の隙間から推し量ります。行間の小さな隙間は単一の改行に、より大きな隙間(デザイナーが段落の間に置く類のもの)は空行に。よくあるケースは正しく出ます — 本文、見出し、箇条書き。デザイナーが普通でない目的で普通でない間隔を使っている場合、ツールはそれを見抜けないので、そうした箇所は軽い手直しがいるかもしれません。
ページは出力で空行で区切られます。ページ区切り自体を入れたくない場合、エディターで二重の空行を一重に置換すれば消えます。
抽出に残らないもの
- 太字、斜体、フォント、色、揃え。 プレーンテキストは平らです。書式を残したいなら pdf-to-word を。
- 表。 セルは読み順でプレーンテキストになります — ふつう行ごと、不器用な間隔をともなって。表として残したい表は pdf-to-excel の領分です。
- 画像と図。 PDF の中で文字でなかったものはテキストに現れません。画像を別個に取り出したい場合は pdf-to-jpg を。
- ヘッダーとフッター。 元のページが毎ページ「機密 — X / Y ページ」を繰り返していたなら、抽出後のテキストも同じです。検索置換で数秒で消せます。
- 行末でハイフン分割された語。 ハイフンで割られた語は
some-\nthingのように出ます —somethingではありません。後続の検索やスペルチェックで意味があるなら、正規表現-\n→ 空文字 で直せます。 - 多段組レイアウトは混じりうる。 二段組の論文は左右の段から文が交互に出てくることがあります。一段組の文書 — レポート、契約書、書籍の多く — は影響を受けません。混じった結果が使い物にならないなら、段組み順を尊重するツールで開いてから抽出し直す方が筋がよいです。
実用上のメモ少々
- PDF にパスワードがかかっている場合、 先に unlock-pdf を通してください。暗号化された PDF はテキスト抽出のために開けません。
- 非常に大きい PDF(数百 MB、数千ページ)でも 抽出はあなたのブラウザーで動きます。デスクトップでは滅多に問題になりません。500 ページのスキャンを携帯で扱うとブラウザーのメモリが上限になります。その場合はデスクトップで。
- 出力は UTF-8。 キリル、ギリシア、アラビア、漢字、ダイアクリティカルマーク付きラテン — すべて、PDF 内に本物のテキストとして格納されている限り、きれいに通ります。非ラテン文字を埋め込みサブセットグリフのまま正しい符号化なしで描画した PDF は、抽出するとゴミになります。これは PDF 自体の問題で、抽出器の問題ではありません。直しは元側 — 正しい Unicode エンコーディングで再書き出し。
- ファイル名のパターン。
contract.pdfはcontract.txtとしてダウンロードされます。ディスク上の PDF はそのままです。
ファイルはどう扱われるか
抽出はあなたのブラウザー内で動きます。DevTools を開き、操作中に Network タブを見てください — ファイル本体を運ぶ送信リクエストはありません。PDF はディスクに残り、.txt はその隣に置かれる新規ダウンロードです。
よくある質問
抽出はどう動作しますか?
Mozillaのpdf.jsでPDFの埋め込みテキストレイヤーをページごとに読みます。項目をY座標でグループ化することで段落区切りが保たれます — サーバなし、アップロードなし。
スキャンしたPDFでも使えますか?
いいえ。スキャンはテキストの画像であってテキストではありません — 抽出にはOCRが必要ですが、本ツールはOCRを実行しません。紙をスキャンして作ったPDFには先にOCRツールが必要です。
ファイルはどこかにアップロードされますか?
いいえ。抽出はWebAssemblyを使ってブラウザ内ですべて実行されます — DevTools→Networkで確認可能。ファイルは端末に残ります。
パスワード保護されたPDFは?
まずPDFのロック解除ツールでPDFを解除してから抽出してください。暗号化されたコンテンツストリームはパスワードなしには解析できません。
ファイルサイズの上限は?
最大100MBです。それ以上はブラウザのメモリを使い切る可能性があります — 先にPDFを分割で小さくしてみてください。