Ekstrak teks dari PDF apa pun,
di browser Anda.
Tarik lapisan teks bersih dari PDF apa pun — paragraf dipertahankan, banyak halaman, UTF-8. Ekstraksi berjalan di dalam browser Anda, jadi file tidak pernah meninggalkan perangkat.
Verifikasi sendiri: buka DevTools → tab Network → jatuhkan sebuah file. Saksikan tidak ada upload sama sekali.
Tiga langkah. PDF Anda tidak pernah meninggalkan tab ini.
Jatuhkan PDF Anda
Pilih file yang ingin diekstrak teksnya. File dimuat ke memori browser, bukan server.
Kami membaca lapisan teks
pdf.js menelusuri setiap halaman, mengurutkan elemen berdasarkan koordinat Y, dan merekonstruksi jeda paragraf di tempatnya.
Salin atau unduh .txt
Dapatkan teks polos UTF-8 yang bersih. Salin ke clipboard atau simpan sebagai .txt — terserah Anda.
Saat Anda mau teksnya, bukan PDF-nya
Alasan untuk menarik teks dari PDF hampir selalu berputar pada satu hal: membawa kata-kata ke tempat yang tidak bisa dimasuki PDF. Anda mau menempelkan kutipan ke email tanpa menyeret PDF sebagai lampiran. Anda memberi dokumen panjang ke asisten AI yang hanya menerima teks polos. Anda ingin grep laporan 200 halaman untuk satu frasa dan pencarian pembaca menyembunyikan sesuatu. Anda menerjemahkan kontrak dan alat penerjemah meminta sumber sebagai berkas datar. Anda memindahkan naskah yang sudah ditata dari PDF kembali ke editor teks. Dalam semua kasus ini, yang menghalangi adalah pembungkusnya — kata-katanya baik-baik saja, hanya terjebak dalam tata letak yang sulit dirakit ulang.
Keluaran di sini persis itu: teks polos, satu berkas .txt besar, dalam urutan yang sama dengan cara PDF dibaca. Tanpa pemformatan, tanpa fonta, tanpa gambar, tanpa tabel-sebagai-tabel. Tugasnya membebaskan kata-kata.
Apa yang sebenarnya dilakukan «ekstraksi»
PDF menyimpan dua jenis «teks». Teks asli — karakter yang digambar dengan fonta dan ditandai PDF sebagai huruf — berada di lapisan teks. Lapisan itulah yang dibaca alat ini secara langsung. Jenis lain adalah teks yang hanya hadir sebagai piksel: apa pun yang dipindai, difoto, atau di-screenshot sebelum masuk ke PDF. Karakter itu adalah gambar huruf, bukan huruf, dan tidak ada ekstraktor yang bisa melihatnya sebagai teks tanpa OCR. Tidak ada langkah OCR di sini.
Dua pemeriksaan cepat memberi tahu PDF mana yang Anda punya. Buka di pembaca apa pun, klik dan seret di atas paragraf: bila teks tersorot bersih, ada lapisan teks dan ekstraksi akan jalan. Bila kursor menggambar persegi panjang dan tidak ada yang tersorot, halamannya gambar — perlu dilewatkan dulu lewat OCR (di alat lain) supaya ekstraktor punya yang bisa dibaca.
Bagaimana baris dan paragraf keluar
PDF tidak menyimpan paragraf. Di dalam, satu halaman adalah karung pecahan teks dengan posisi — tidak ada metadata yang bilang «di sini paragrafnya berakhir». Teks polos yang nyaman dibaca tanpa pemisah tidak ada, jadi alat menyimpulkannya dari jarak vertikal: jarak kecil antar baris jadi satu baris baru, jarak yang lebih besar (yang biasa diberi desainer antar paragraf) jadi baris kosong. Kasus umum keluar benar: teks badan, judul, daftar. Bila desainer memakai jarak tidak biasa untuk hal lain, alat tidak bisa menebak dan titik-titik itu mungkin perlu sentuhan ringan.
Halaman dipisahkan oleh baris kosong di keluaran. Kalau Anda lebih suka tanpa pemisah halaman, find-and-replace baris kosong ganda jadi tunggal akan menghilangkannya.
Apa yang tidak selamat dari ekstraksi
- Tebal, miring, fonta, warna, perataan. Teks polos itu rata. Kalau Anda perlu mempertahankan format, lihat pdf-to-word.
- Tabel. Sel jadi teks polos dalam urutan baca — biasanya baris demi baris, sering dengan jarak yang janggal. Tabel yang harus tetap jadi tabel masuknya ke pdf-to-excel.
- Gambar dan diagram. Yang di PDF bukan teks tidak muncul di teks. Untuk menarik gambar terpisah, lihat pdf-to-jpg.
- Header dan footer. Kalau aslinya mengulang «Rahasia — halaman X dari Y» di tiap halaman, teks hasil juga begitu. Find-and-replace mencabutnya dalam hitungan detik.
- Kata yang dipenggal tanda hubung di akhir baris. Kata yang patah oleh tanda hubung keluar sebagai
se-\nsuatubukansesuatu. Kalau itu penting untuk pencarian atau pemeriksa ejaan setelahnya, regex-\n→ kosong memperbaikinya. - Tata letak banyak kolom bisa berkelindan. Artikel ilmiah dua kolom bisa keluar dengan kalimat dari kolom kiri dan kanan berseling. Dokumen satu kolom — kebanyakan laporan, kontrak, buku — tidak terdampak. Kalau hasil kolom-bercampur tidak terpakai, lebih bersih membuka PDF di alat yang menghormati urutan kolom sebelum mengekstraksi ulang.
Beberapa catatan praktis
- Kalau PDF dilindungi kata sandi, lewatkan dulu via unlock-pdf. PDF terenkripsi tidak bisa dibuka untuk ekstraksi teks.
- Untuk PDF sangat besar (ratusan MB, ribuan halaman) ekstraksi tetap berjalan di browser Anda. Di desktop jarang masalah; di ponsel dengan pindaian 500 halaman, batasnya memori browser. Kalau begitu, di desktop.
- Keluaran berupa UTF-8. Kiril, Yunani, Arab, Tionghoa, Latin beraksen lewat bersih asal PDF menyimpannya sebagai teks asli. PDF yang menggambar karakter non-Latin sebagai glif subset tertanam tanpa pengkodean benar menghasilkan sampah saat ekstraksi — itu masalah PDF-nya sendiri, bukan ekstraktor. Diperbaiki di sumber: ekspor ulang dengan pengkodean Unicode yang benar.
- Pola nama berkas. Berkas
contract.pdfdiunduh sebagaicontract.txt. PDF di disk tetap di tempat.
Apa yang terjadi pada berkas Anda
Ekstraksi berjalan di browser Anda. Buka DevTools dan amati tab Network selama operasi — tidak ada permintaan keluar yang membawa konten berkas. PDF tetap di disk; .txt adalah unduhan baru di sebelahnya.
Pertanyaan umum
Bagaimana ekstraksi bekerja?
Kami memakai pdf.js dari Mozilla untuk membaca lapisan teks tertanam pada PDF Anda halaman demi halaman. Elemen dikelompokkan berdasarkan koordinat Y agar jeda paragraf tetap utuh — tanpa server, tanpa unggah.
Apakah berfungsi pada PDF hasil pindai?
Tidak. Pindaian adalah gambar dari teks, bukan teks — ekstraksinya butuh OCR, yang tidak dijalankan alat ini. Jika PDF Anda berasal dari kertas yang dipindai, gunakan alat OCR terlebih dahulu.
Apakah file saya diunggah ke suatu tempat?
Tidak pernah. Ekstraksi sepenuhnya berjalan di browser Anda via WebAssembly — bisa diperiksa di DevTools → Network. File tetap di perangkat Anda.
Bagaimana dengan PDF yang dilindungi sandi?
Buka kunci PDF terlebih dahulu dengan alat Buka Kunci PDF, lalu ekstrak. Aliran konten terenkripsi tidak dapat diurai tanpa sandi.
Berapa batas ukuran file?
Hingga 100 MB. Lebih besar dari itu dapat menghabiskan memori browser — coba bagi terlebih dahulu dengan alat Bagi PDF.