Ekstrak teks dari PDF apa pun,
di browser Anda.
Tarik lapisan teks bersih dari PDF apa pun — paragraf dipertahankan, banyak halaman, UTF-8. Ekstraksi berjalan di dalam browser Anda, jadi file tidak pernah meninggalkan perangkat.
Tiga langkah. PDF Anda tidak pernah meninggalkan tab ini.
Jatuhkan PDF Anda
Pilih file yang ingin diekstrak teksnya. File dimuat ke memori browser, bukan server.
Kami membaca lapisan teks
pdf.js menelusuri setiap halaman, mengurutkan elemen berdasarkan koordinat Y, dan merekonstruksi jeda paragraf di tempatnya.
Salin atau unduh .txt
Dapatkan teks polos UTF-8 yang bersih. Salin ke clipboard atau simpan sebagai .txt — terserah Anda.
Pertanyaan umum
Bagaimana ekstraksi bekerja?
Kami memakai pdf.js dari Mozilla untuk membaca lapisan teks tertanam pada PDF Anda halaman demi halaman. Elemen dikelompokkan berdasarkan koordinat Y agar jeda paragraf tetap utuh — tanpa server, tanpa unggah.
Apakah berfungsi pada PDF hasil pindai?
Tidak. Pindaian adalah gambar dari teks, bukan teks — ekstraksinya butuh OCR, yang tidak dijalankan alat ini. Jika PDF Anda berasal dari kertas yang dipindai, gunakan alat OCR terlebih dahulu.
Apakah file saya diunggah ke suatu tempat?
Tidak pernah. Ekstraksi sepenuhnya berjalan di browser Anda via WebAssembly — bisa diperiksa di DevTools → Network. File tetap di perangkat Anda.
Bagaimana dengan PDF yang dilindungi sandi?
Buka kunci PDF terlebih dahulu dengan alat Buka Kunci PDF, lalu ekstrak. Aliran konten terenkripsi tidak dapat diurai tanpa sandi.
Berapa batas ukuran file?
Hingga 100 MB. Lebih besar dari itu dapat menghabiskan memori browser — coba bagi terlebih dahulu dengan alat Bagi PDF.