PDF Excel 変換オンライン
PDFの表を編集可能なExcelブックへ抽出。検出と解析はすべてブラウザ内で行われます。
自分で確認してください:DevToolsを開く → Networkタブ → ファイルをドロップ。アップロードがゼロであることを確認できます。
3ステップ、アップロードなし。
PDFをドロップ
ブラウザのメモリに読み込みます。
表を検出
表の境界を見つけ、セルをクライアントで解析します。
XLSXをダウンロード
Excel、Numbers、Google Sheetsで開けます。
表が PDF の中にいて、もう一度表に戻したいとき
そういう場面は、たいてい誰か他人のフォーマット選択の結果として降ってきます。銀行から明細が PDF で届き、取引をスプレッドシートに入れてカテゴリを合計したい。仕入先からの価格表は PDF で、前四半期と比べたい。当局がデータ表を PDF だけで公開していて、ソートやフィルタのためにセルとして必要。スクレイピングしたレポートが PDF で、行をそのまま行として欲しい。どの場面でも数字は存在します。組版に閉じ込められているせいで、数字のように振る舞っていないだけです。
ここでの仕事は、行と列を取り戻すこと — PDF を入れ、各ページが一つのシートになり、各行が行のまま、各列が列のままの .xlsx を返す、というだけのことです。そこからは並び替え、絞り込み、合計、ピボット — スプレッドシートが本来やるためにある作業ができます。
なぜ「推測」なのか — それでも結構うまくいく
PDF は表を保存しません。中ではページが、x/y 位置を持つ文字片の平らな流れにすぎず、「ここから行」とか「列はここから」と書かれた箇所はどこにもありません。これらの構造はあなたが読むとき目の中にだけあります。取り戻すというのは、文字が実際に置かれている位置から格子を逆算することです。
ツールはこれを段階的にやります。まず文字片を y 位置で行にまとめます — 二つの片が縦方向で行高のおよそ半分以内に収まっていれば同じ行です。次に行内で、横方向に近い片は一つのセルに融合し(普通の文字間隔)、より広い隙間はセルの境界(列のあいだの溝)になります。最後に、ページ全体を見渡して、セルがどこから始まるかを確かめ、支配的な x 位置を列の中心とみなします。各セルは最も近い列に振り分けられ、スプレッドシートが期待する長方形の格子ができあがります。
アルゴリズムが当てるもの
- 古典的な財務表 — 銀行明細、請求書、価格表、経費精算。 1 件 1 行、列のあいだに明確な溝、数字は右寄せ — まさにこの分野に向けてヒューリスティックが調整されており、たいていきれいに通ります。
- 1 行で収まるレコード。 各レコードが 1 行に収まるとき、行検出は信頼できます。
- ページ幅いっぱいの表。 列検出は列がよく離れていてページ全体で一定なときに最も良く働きます。
- 右揃えと左揃え。 どちらも扱えます — 大事なのは列のあいだに見分けやすい溝があることです。
苦手なところ
- 折り返しのあるセル。 値が二行目に流れ込むセル — 長い商品説明、複数行の住所 — はたいてい 2 行に分かれます。スプレッドシート側で軽く手直しするか(または手直しに見合わなければ pdf-to-txt に切り替えて表を手で組み直す)。
- 結合セル。 視覚的に 2 列にまたがる見出しは、最も近い 1 列にだけ現れます。結合は A 列に値、B 列が空、という形で見えます。
- 横並びの 2 つの表。 列検出器は両方を一緒に見て、1 つの広い表に押し潰すことがあります。先に PDF を半分に切ると助かります。
- 表と同じページ上の本文。 表の上の段落は自分の「行」を持ち込みます — 実際には行ではない数行、消すのは簡単です。
- 複数ページにまたがる表。 ページごとに別シートになります。1 つの連続した表に縫い合わせるには、抽出後にデータブロックをコピー&ペーストしてください。
- スキャンした PDF。 文字抽出全般と同じ注意点 — ページが画像(スキャンした明細、写真の領収書)なら読むものがありません。先に別ツールで OCR を。
最終的に手元に来るもの
1 つの .xlsx ファイル。PDF の各ページが Page 1、Page 2 といった名前のシートになります。Excel、Numbers、Google スプレッドシート、LibreOffice — どれでも開けます。セルは素の値で、書式・数式・スタイルはありません。要は、数字がもう一度数字に、列がもう一度列になっているということです。
xlsx より CSV がよければ、お使いのスプレッドシートアプリでシートを CSV として保存してください — メニューひとつぶんです。
実用上のメモ
- PDF にパスワードがかかっていれば、 先に unlock-pdf を通してください。暗号化された PDF はセル抽出のために開けません。
- 非常に幅広の表では、 抽出前に元の PDF を横向きに回しておくと列検出が助かります — 列が少なくなり、溝もはっきりします。回転は edit-pdf から。
- 構造はいらず本文だけ欲しいなら、 pdf-to-txt のほうが速く、結果も流し直しやすいです。
- 逆方向の操作 — Excel のシートを PDF に入れる — は excel-to-pdf です。
ファイルはどう扱われるか
抽出はあなたのブラウザー内で動きます。DevTools を開き、操作中に Network タブを見てください — ファイル本体を運ぶ送信リクエストは出ません。PDF はディスクに残り、.xlsx はその隣に置かれる新規ダウンロードです。
よくある質問
PDFはアップロードされますか?
いいえ。検出と解析はすべてブラウザ内で行われます。ファイルは端末から離れません。
スキャンPDFでも動作しますか(OCR)?
スキャンされた表は編集可能なセルにするためOCRが必要です。テキスト(選択可能なテキスト)を含むPDFは直接抽出されます。
表の検出精度は?
罫線入りの表や間隔が明確な格子はきれいに抽出されます。結合セルや枠なしの表は手動確認が必要になる場合があります。
特定のページを選べますか?
はい。ページ範囲を指定して、必要なページの表だけを抽出できます。