PDFをテキストに
あらゆるPDFからテキストを抽出、
ブラウザ内で。
あらゆるPDFから綺麗なテキストレイヤーを取り出します。段落は保持、複数ページ対応、UTF-8。抽出はブラウザ内で実行されるため、ファイルが端末を離れることはありません。
テキストを抽出したいPDFをドロップ
pdf.jsで埋め込みテキストレイヤーを読み取ります — OCRなし、サーバなし。
無料
登録不要
アップロードなし
UTF-8出力
仕組み
3ステップ。PDFはこのタブから出ません。
1
PDFをドロップ
テキストを抽出したいファイルを選びます。ブラウザのメモリに読み込まれ、サーバには送られません。
2
テキストレイヤーを読み取り
pdf.jsが各ページを走査し、Y座標で項目を並べ替えて、段落区切りを正しい位置に再構築します。
3
コピーまたは.txtをダウンロード
綺麗なUTF-8プレーンテキストを取得。クリップボードにコピー、または.txtで保存 — お好みで。
FAQ
よくある質問
抽出はどう動作しますか?
Mozillaのpdf.jsでPDFの埋め込みテキストレイヤーをページごとに読みます。項目をY座標でグループ化することで段落区切りが保たれます — サーバなし、アップロードなし。
スキャンしたPDFでも使えますか?
いいえ。スキャンはテキストの画像であってテキストではありません — 抽出にはOCRが必要ですが、本ツールはOCRを実行しません。紙をスキャンして作ったPDFには先にOCRツールが必要です。
ファイルはどこかにアップロードされますか?
いいえ。抽出はWebAssemblyを使ってブラウザ内ですべて実行されます — DevTools→Networkで確認可能。ファイルは端末に残ります。
パスワード保護されたPDFは?
まずPDFのロック解除ツールでPDFを解除してから抽出してください。暗号化されたコンテンツストリームはパスワードなしには解析できません。
ファイルサイズの上限は?
最大100MBです。それ以上はブラウザのメモリを使い切る可能性があります — 先にPDFを分割で小さくしてみてください。