PDF ke Teks

Ekstrak teks dari PDF apa pun,
di browser Anda.

Tarik lapisan teks bersih dari PDF apa pun — paragraf dipertahankan, banyak halaman, UTF-8. Ekstraksi berjalan di dalam browser Anda, jadi file tidak pernah meninggalkan perangkat.

Jatuhkan PDF yang ingin Anda ekstrak teksnya
Kami membaca lapisan teks tertanam dengan pdf.js — tanpa OCR, tanpa server.
Banyak halaman · Output UTF-8 PDF hasil pindai memerlukan OCR — alat ini hanya membaca lapisan teks
Gratis
Tanpa daftar
Tanpa unggah
Output UTF-8
CARA KERJANYA

Tiga langkah. PDF Anda tidak pernah meninggalkan tab ini.

1

Jatuhkan PDF Anda

Pilih file yang ingin diekstrak teksnya. File dimuat ke memori browser, bukan server.

2

Kami membaca lapisan teks

pdf.js menelusuri setiap halaman, mengurutkan elemen berdasarkan koordinat Y, dan merekonstruksi jeda paragraf di tempatnya.

3

Salin atau unduh .txt

Dapatkan teks polos UTF-8 yang bersih. Salin ke clipboard atau simpan sebagai .txt — terserah Anda.

FAQ

Pertanyaan umum

Bagaimana ekstraksi bekerja?

Kami memakai pdf.js dari Mozilla untuk membaca lapisan teks tertanam pada PDF Anda halaman demi halaman. Elemen dikelompokkan berdasarkan koordinat Y agar jeda paragraf tetap utuh — tanpa server, tanpa unggah.

Apakah berfungsi pada PDF hasil pindai?

Tidak. Pindaian adalah gambar dari teks, bukan teks — ekstraksinya butuh OCR, yang tidak dijalankan alat ini. Jika PDF Anda berasal dari kertas yang dipindai, gunakan alat OCR terlebih dahulu.

Apakah file saya diunggah ke suatu tempat?

Tidak pernah. Ekstraksi sepenuhnya berjalan di browser Anda via WebAssembly — bisa diperiksa di DevTools → Network. File tetap di perangkat Anda.

Bagaimana dengan PDF yang dilindungi sandi?

Buka kunci PDF terlebih dahulu dengan alat Buka Kunci PDF, lalu ekstrak. Aliran konten terenkripsi tidak dapat diurai tanpa sandi.

Berapa batas ukuran file?

Hingga 100 MB. Lebih besar dari itu dapat menghabiskan memori browser — coba bagi terlebih dahulu dengan alat Bagi PDF.