PDF ke Excel

PDF ke Excel
Online

Ekstrak tabel dari PDF ke workbook Excel yang dapat diedit. Deteksi dan parsing berlangsung sepenuhnya di browser Anda.

Lepaskan PDF Anda
Kami mendeteksi tabel dan mengekspornya sebagai XLSX yang bersih.

Verifikasi sendiri: buka DevTools → tab Network → jatuhkan sebuah file. Saksikan tidak ada upload sama sekali.

Tabel terdeteksi otomatis Berfungsi offline setelah muat pertama
Gratis
Tanpa daftar
Tanpa upload
Tabel dipertahankan
CARA KERJA

Tiga langkah. Nol unggahan.

1

Lepaskan PDF

Muat ke memori browser.

2

Deteksi tabel

Kami menemukan batas tabel dan memparsing sel di sisi klien.

3

Unduh XLSX

Buka di Excel, Numbers, atau Google Sheets.

Saat tabel terkurung di PDF dan harus kembali jadi tabel

Situasinya umumnya muncul karena pilihan format orang lain. Bank mengirim rekening koran sebagai PDF, lalu Anda mau menumpahkan transaksi ke spreadsheet untuk menjumlahkan satu kategori. Daftar harga dari pemasok datang dalam PDF dan Anda mau membandingkannya dengan kuartal lalu. Regulator menerbitkan tabel data hanya sebagai PDF dan Anda butuh data itu sebagai sel agar bisa disortir dan disaring. Laporan hasil scraping berbentuk PDF dan Anda mau setiap baris sebagai baris. Dalam semua kasus ini, angkanya ada; mereka cuma tidak berperilaku seperti angka karena terkunci di tata letak.

Tugas di sini adalah memulihkan baris dan kolom: ambil PDF, kembalikan .xlsx di mana setiap halaman jadi lembar tersendiri, setiap baris jadi baris, dan setiap kolom jadi kolom. Dari sana Anda bisa menyortir, menyaring, menjumlahkan, membuat tabel pivot — yang memang tujuan spreadsheet ada.

Mengapa ini tebakan — dan tebakan yang cukup baik

PDF tidak menyimpan tabel. Di dalamnya, satu halaman adalah aliran datar pecahan teks dengan posisi x/y di kanvas. Tidak ada di mana pun tertulis «ini sebuah baris» atau «kolom mulai di sini» — struktur itu hanya ada di mata Anda saat membaca. Memulihkannya berarti menyimpulkan kisi dari tempat teks benar-benar duduk.

Alat ini melakukannya dalam beberapa tahap. Pertama, mengelompokkan pecahan teks menjadi baris berdasarkan y: jika dua pecahan secara vertikal berada dalam jarak sekitar setengah tinggi baris, mereka termasuk baris yang sama. Lalu, di dalam baris, pecahan yang dekat secara horizontal melebur menjadi satu sel (jarak antar huruf biasa) dan jeda yang lebih lebar menjadi batas sel (selat antar kolom). Terakhir, alat melihat di mana sel-sel mulai sepanjang halaman, menemukan posisi x dominan, dan memperlakukannya sebagai pusat kolom — setiap sel ditempatkan ke yang terdekat. Itu menghasilkan kisi persegi panjang yang dibutuhkan spreadsheet.

Yang ditangkap algoritma dengan benar

  • Tabel finansial klasik — rekening koran, faktur, daftar harga, laporan pengeluaran. Satu baris per catatan, selat jelas antar kolom, angka rata kanan: persis kasus yang menjadi penyetelan heuristik, biasanya keluar bersih.
  • Catatan satu baris. Bila setiap catatan muat dalam satu baris, deteksi baris bisa diandalkan.
  • Tabel selebar halaman. Deteksi kolom bekerja paling baik bila kolom berjarak lebar dan konstan sepanjang halaman.
  • Rata kanan dan rata kiri. Alat menerima keduanya — yang penting ada selat yang dapat dikenali antar kolom.

Di mana ia kesulitan

  • Sel berlanjut ke baris baru. Sel yang nilainya pindah ke baris kedua — deskripsi produk panjang, alamat banyak baris — biasanya pecah jadi dua baris. Diperbaiki dengan koreksi manual ringan di lembar (atau lebih baik pdf-to-txt dan menyusun ulang tabel manual jika koreksi tidak sepadan).
  • Sel yang digabung. Tajuk yang secara visual mencakup dua kolom hanya muncul di salah satunya — yang terdekat. Penggabungan akan terlihat sebagai nilai di kolom A dan kosong di B.
  • Dua tabel berdampingan. Detektor kolom melihat keduanya sekaligus dan bisa meratakannya jadi satu tabel lebar. Memotong PDF di tengah lebih dulu membantu.
  • Teks berjalan di halaman yang sama dengan tabel. Paragraf di atas tabel menyumbang «baris»-nya sendiri — beberapa baris yang sebenarnya bukan baris, mudah dihapus.
  • Tabel multi-halaman. Setiap halaman jadi lembar terpisah. Untuk menjahitnya jadi satu tabel kontinu, salin dan tempel bagian data setelah ekstraksi.
  • PDF hasil pindai. Peringatan yang sama dengan ekstraksi teks mana pun: bila halaman adalah gambar (rekening koran hasil pindai, kwitansi yang difoto), tidak ada yang bisa dibaca. Pertama OCR di alat lain.

Apa yang Anda dapat di akhir

Satu berkas .xlsx. Setiap halaman PDF jadi lembar tersendiri bernama Page 1, Page 2, dan seterusnya. Bisa dibuka di Excel, Numbers, Google Sheets, LibreOffice — di mana saja. Sel berisi nilai polos; tidak ada pemformatan, formula, gaya. Intinya: angkanya kini angka, dan kolomnya kini kolom.

Bila Anda lebih suka CSV daripada xlsx, simpan lembar sebagai CSV dari aplikasi spreadsheet Anda — itu satu menu saja.

Catatan praktis

  1. Bila PDF dilindungi kata sandi, lewatkan dulu via unlock-pdf. PDF terenkripsi tidak dapat dibuka untuk ekstraksi sel.
  2. Untuk tabel sangat lebar, memutar PDF sumber ke lanskap sebelum ekstraksi membantu — lebih sedikit kolom, selat lebih bersih. Putar di edit-pdf.
  3. Bila Anda hanya butuh teks tanpa struktur, pdf-to-txt lebih cepat dan hasilnya lebih mudah dirombak.
  4. Operasi kebalikan — menaruh lembar Excel ke PDF — adalah excel-to-pdf.

Apa yang terjadi pada berkas Anda

Ekstraksi berjalan di browser Anda. Buka DevTools dan amati tab Network selama operasi — tidak ada permintaan keluar membawa konten berkas. PDF tetap di disk; .xlsx adalah unduhan baru di sebelahnya.

FAQ

Pertanyaan umum

Apakah PDF saya diunggah?

Tidak. Deteksi dan parsing berlangsung sepenuhnya di browser. File tidak meninggalkan perangkat.

Apakah berfungsi pada PDF pindaian (OCR)?

Tabel hasil pindaian membutuhkan OCR untuk menjadi sel yang dapat diedit. PDF berbasis teks (teks yang dapat dipilih) terekstrak langsung.

Seberapa akurat deteksi tabel?

Tabel bergaris dan grid yang tertata rapi terekstrak bersih. Sel tergabung dan tabel tanpa batas mungkin perlu tinjauan manual.

Bisa memilih halaman tertentu?

Bisa. Pilih rentang halaman untuk mengekstrak tabel hanya dari yang Anda butuhkan.