PDFをテキストに

あらゆるPDFからテキストを抽出、
ブラウザ内で

あらゆるPDFから綺麗なテキストレイヤーを取り出します。段落は保持、複数ページ対応、UTF-8。抽出はブラウザ内で実行されるため、ファイルが端末を離れることはありません。

テキストを抽出したいPDFをドロップ
pdf.jsで埋め込みテキストレイヤーを読み取ります — OCRなし、サーバなし。
複数ページ · UTF-8出力 スキャンPDFはOCRが必要 — このツールはテキストレイヤーのみ
無料
登録不要
アップロードなし
UTF-8出力
仕組み

3ステップ。PDFはこのタブから出ません。

1

PDFをドロップ

テキストを抽出したいファイルを選びます。ブラウザのメモリに読み込まれ、サーバには送られません。

2

テキストレイヤーを読み取り

pdf.jsが各ページを走査し、Y座標で項目を並べ替えて、段落区切りを正しい位置に再構築します。

3

コピーまたは.txtをダウンロード

綺麗なUTF-8プレーンテキストを取得。クリップボードにコピー、または.txtで保存 — お好みで。

FAQ

よくある質問

抽出はどう動作しますか?

Mozillaのpdf.jsでPDFの埋め込みテキストレイヤーをページごとに読みます。項目をY座標でグループ化することで段落区切りが保たれます — サーバなし、アップロードなし。

スキャンしたPDFでも使えますか?

いいえ。スキャンはテキストの画像であってテキストではありません — 抽出にはOCRが必要ですが、本ツールはOCRを実行しません。紙をスキャンして作ったPDFには先にOCRツールが必要です。

ファイルはどこかにアップロードされますか?

いいえ。抽出はWebAssemblyを使ってブラウザ内ですべて実行されます — DevTools→Networkで確認可能。ファイルは端末に残ります。

パスワード保護されたPDFは?

まずPDFのロック解除ツールでPDFを解除してから抽出してください。暗号化されたコンテンツストリームはパスワードなしには解析できません。

ファイルサイズの上限は?

最大100MBです。それ以上はブラウザのメモリを使い切る可能性があります — 先にPDFを分割で小さくしてみてください。