ดึงข้อความจาก PDF ใดก็ได้
ในเบราว์เซอร์ของคุณ
ดึงชั้นข้อความที่สะอาดออกจาก PDF ใด ๆ — รักษาย่อหน้า รองรับหลายหน้า UTF-8 การดึงทำงานภายในเบราว์เซอร์ ไฟล์จึงไม่เคยออกจากอุปกรณ์
สามขั้นตอน PDF ของคุณไม่ออกจากแท็บนี้
วาง PDF ของคุณ
เลือกไฟล์ที่ต้องการดึงข้อความ ระบบจะโหลดเข้าหน่วยความจำของเบราว์เซอร์ ไม่ใช่เซิร์ฟเวอร์
อ่านชั้นข้อความ
pdf.js เดินผ่านทุกหน้า เรียงลำดับรายการตามพิกัด Y และสร้างขึ้นย่อหน้าใหม่ในตำแหน่งที่ถูกต้อง
คัดลอกหรือดาวน์โหลด .txt
รับข้อความล้วน UTF-8 ที่สะอาด คัดลอกไปยังคลิปบอร์ดหรือบันทึกเป็น .txt — แล้วแต่คุณ
คำถามที่พบบ่อย
การดึงทำงานอย่างไร?
เราใช้ pdf.js จาก Mozilla เพื่ออ่านชั้นข้อความฝังของ PDF ทีละหน้า รายการถูกจัดกลุ่มตามพิกัด Y เพื่อให้ขึ้นย่อหน้ายังคงอยู่ — ไม่มีเซิร์ฟเวอร์ ไม่มีการอัปโหลด
ใช้กับ PDF ที่สแกนได้ไหม?
ไม่ได้ การสแกนคือภาพของข้อความ ไม่ใช่ข้อความ — ต้องใช้ OCR ในการดึง ซึ่งเครื่องมือนี้ไม่ได้รัน หาก PDF ของคุณมาจากการสแกนกระดาษ ให้ใช้เครื่องมือ OCR ก่อน
ไฟล์ของฉันถูกอัปโหลดไปที่ไหนหรือเปล่า?
ไม่เลย การดึงทำงานทั้งหมดในเบราว์เซอร์ผ่าน WebAssembly — ตรวจสอบได้ที่ DevTools → Network ไฟล์ยังคงอยู่บนอุปกรณ์ของคุณ
แล้ว PDF ที่มีรหัสผ่านล่ะ?
ปลดล็อก PDF ก่อนด้วยเครื่องมือ ปลดล็อก PDF แล้วจึงดึงข้อความ สตรีมเนื้อหาที่เข้ารหัสไม่สามารถถูกแยกวิเคราะห์ได้หากไม่มีรหัสผ่าน
จำกัดขนาดไฟล์เท่าไหร่?
สูงสุด 100 MB หากใหญ่กว่านี้อาจทำให้หน่วยความจำของเบราว์เซอร์หมด — ลองแบ่งไฟล์ก่อนด้วย แบ่ง PDF