แปลง PDF เป็น Excel
แยกตารางจาก PDF ออกมาเป็นเวิร์กบุ๊ก Excel ที่แก้ไขได้ การตรวจจับและแจงค่าเกิดขึ้นทั้งหมดในเบราว์เซอร์
ตรวจสอบด้วยตัวคุณเอง: เปิด DevTools → แท็บ Network → ลากไฟล์มาวาง คุณจะเห็นว่าไม่มีการอัปโหลดใด ๆ เลย
สามขั้นตอน ไม่มีการอัปโหลด
ปล่อย PDF
โหลดเข้าหน่วยความจำของเบราว์เซอร์
ตรวจจับตาราง
เรากำหนดขอบเขตตารางและแจงค่าเซลล์ในฝั่งไคลเอนต์
ดาวน์โหลด XLSX
เปิดใน Excel, Numbers หรือ Google Sheets
เมื่อตารางอยู่ใน PDF และต้องกลับมาเป็นตาราง
โอกาสมักโผล่มาตามหลังการเลือกฟอร์แมตของคนอื่น ธนาคารส่งใบแจ้งยอดเป็น PDF และคุณอยากเทรายการเข้าสเปรดชีตเพื่อรวมหมวดหนึ่ง ใบราคาจากซัพพลายเออร์มาเป็น PDF และคุณอยากเทียบกับไตรมาสที่แล้ว หน่วยงานกำกับเผยแพร่ตารางข้อมูลเฉพาะเป็น PDF และคุณต้องใช้เป็นเซลล์เพื่อจัดเรียงและกรอง รายงานที่ scrape มาเป็น PDF และคุณอยากให้ทุกแถวเป็นแถว ในทุกกรณี ตัวเลขมีอยู่ เพียงแค่ไม่ทำตัวเหมือนตัวเลขเพราะถูกล็อกอยู่ในเลย์เอาต์
งานที่นี่คือกู้คืนแถวและคอลัมน์ รับ PDF คืนเป็น .xlsx ที่แต่ละหน้าคือชีตของตัวเอง ทุกแถวคือแถว ทุกคอลัมน์คือคอลัมน์ จากตรงนั้นจัดเรียง กรอง รวม ทำพิวตได้ — เป็นที่มาของการมีสเปรดชีต
ทำไมเป็นการเดา — และเดาดีพอใช้
PDF ไม่ได้เก็บตาราง ภายในนั้นหนึ่งหน้าคือสายแบนของชิ้นข้อความที่มีพิกัด x/y บนผืนผ้าใบ ไม่มีที่ใดบอกว่า «นี่คือแถว» หรือ «คอลัมน์เริ่มที่นี่» โครงสร้างเหล่านี้มีอยู่แค่ในตาคุณตอนอ่าน การกู้คืนหมายถึงอนุมานตารางจากตำแหน่งที่ข้อความตั้งอยู่จริง
เครื่องมือทำเป็นหลายขั้นตอน อันดับแรก จัดกลุ่มชิ้นข้อความเป็นแถวตาม y ถ้าสองชิ้นห่างกันแนวตั้งราวครึ่งหนึ่งของความสูงบรรทัด แสดงว่าเป็นแถวเดียวกัน ต่อมาในแถวเดียวกัน ชิ้นที่อยู่ใกล้กันแนวนอนหลอมเป็นเซลล์เดียว (ระยะห่างตัวอักษรปกติ) ส่วนช่องว่างที่กว้างกว่ากลายเป็นขอบเซลล์ (ทางระหว่างคอลัมน์) สุดท้าย เครื่องมือดูว่าเซลล์เริ่มที่ใดทั่วทั้งหน้า หาตำแหน่ง x ที่เด่นและถือว่าเป็นจุดศูนย์กลางคอลัมน์ — ทุกเซลล์ถูกกำหนดให้คอลัมน์ที่ใกล้ที่สุด ผลคือกริดสี่เหลี่ยมที่สเปรดชีตต้องการ
สิ่งที่อัลกอริทึมจับได้ดี
- ตารางการเงินคลาสสิก — ใบแจ้งยอด ใบกำกับ ใบราคา รายงานค่าใช้จ่าย หนึ่งแถวต่อหนึ่งระเบียน ทางระหว่างคอลัมน์ชัด ตัวเลขชิดขวา เป็นกรณีที่ heuristic ถูกปรับมา และมักออกมาสะอาด
- รายการแถวเดียว เมื่อทุกระเบียนพอดีกับหนึ่งแถว การตรวจหาแถวเชื่อถือได้
- ตารางที่กว้างเต็มหน้า การตรวจหาคอลัมน์ทำงานดีที่สุดเมื่อคอลัมน์ห่างกันดีและคงที่ตลอดหน้า
- ชิดขวาและชิดซ้าย เครื่องมือรับทั้งคู่ — สำคัญที่ทางระหว่างคอลัมน์ที่มองออก
ที่ที่มีปัญหา
- เซลล์ที่ตัดบรรทัด เซลล์ที่ค่าล้นไปบรรทัดที่สอง — รายละเอียดสินค้ายาว ที่อยู่หลายบรรทัด — มักถูกแยกเป็นสองแถว แก้ด้วยการแก้มือเล็กน้อยในชีต (หรือใช้ pdf-to-txt และสร้างตารางใหม่ด้วยมือ ถ้าการแก้ไม่คุ้ม)
- เซลล์ผสาน หัวที่ครอบสองคอลัมน์ทางสายตา จะปรากฏในคอลัมน์เดียว — คอลัมน์ที่ใกล้ที่สุด ผสานเห็นเป็นค่าในคอลัมน์ A และ B ว่าง
- ตารางสองตารางวางข้างกัน ตัวตรวจหาคอลัมน์เห็นทั้งคู่พร้อมกันและอาจอัดเป็นตารางใหญ่ตารางเดียว ตัด PDF เป็นครึ่งล่วงหน้าช่วยได้
- เนื้อหาวิ่งในหน้าเดียวกับตาราง ย่อหน้าเหนือตารางจะให้ «แถว» ของข้อความของตัวเอง — แถวสองสามแถวที่จริง ๆ ไม่ใช่แถว ลบง่าย
- ตารางหลายหน้า แต่ละหน้ากลายเป็นชีตแยก เพื่อเย็บเป็นตารางต่อเนื่อง คัดลอกและวางส่วนข้อมูลหลังการสกัด
- PDF ที่สแกน ข้อสงวนเดียวกับการสกัดข้อความใด ๆ ถ้าหน้าคือภาพ (ใบแจ้งยอดสแกน ใบเสร็จที่ถ่าย) ไม่มีอะไรให้อ่าน ก่อนอื่นทำ OCR ในเครื่องมืออื่น
สิ่งที่คุณได้ในตอนท้าย
ไฟล์ .xlsx หนึ่งไฟล์ ทุกหน้า PDF กลายเป็นชีตของตัวเองชื่อ Page 1, Page 2 ฯลฯ เปิดใน Excel, Numbers, Google Sheets, LibreOffice ก็ได้ทั้งหมด เซลล์เป็นค่าธรรมดา ไม่มีฟอร์แมต ไม่มีสูตร ไม่มีสไตล์ ใจความคือ ตัวเลขกลับมาเป็นตัวเลข คอลัมน์กลับมาเป็นคอลัมน์
ถ้าอยากได้ CSV แทน xlsx ให้บันทึกชีตเป็น CSV จากแอปสเปรดชีตของคุณ — อยู่ห่างไปหนึ่งเมนู
หมายเหตุปฏิบัติ
- ถ้า PDF มีรหัสผ่าน ส่งผ่าน unlock-pdf ก่อน PDF ที่เข้ารหัสไม่สามารถเปิดเพื่อสกัดเซลล์ได้
- สำหรับตารางที่กว้างมาก หมุน PDF ต้นทางเป็นแนวนอนก่อนสกัดช่วยได้ — คอลัมน์น้อยลง ทางสะอาดขึ้น หมุนใน edit-pdf
- ถ้าต้องการเพียงข้อความไม่ต้องการโครงสร้าง pdf-to-txt เร็วกว่าและผลลัพธ์จัดใหม่ง่ายกว่า
- การดำเนินการย้อนกลับ — ใส่ชีต Excel ลงใน PDF — คือ excel-to-pdf
ไฟล์ของคุณจะเกิดอะไรขึ้น
การสกัดทำงานในเบราว์เซอร์ของคุณ เปิด DevTools และดูแท็บ Network ขณะทำ ไม่มีคำขอออกที่นำเนื้อไฟล์ออกไป PDF ยังอยู่บนดิสก์ ส่วน .xlsx เป็นไฟล์ดาวน์โหลดใหม่ข้างกัน
คำถามที่พบบ่อย
PDF ของฉันถูกอัปโหลดหรือไม่?
ไม่ การตรวจจับและแจงค่าทั้งหมดเกิดขึ้นในเบราว์เซอร์ ไฟล์ไม่ออกจากอุปกรณ์
ใช้กับ PDF ที่สแกนได้ไหม (OCR)?
ตารางที่สแกนต้องใช้ OCR จึงจะเป็นเซลล์ที่แก้ไขได้ PDF ที่เป็นข้อความ (เลือกข้อความได้) แยกออกได้โดยตรง
การตรวจจับแม่นยำแค่ไหน?
ตารางที่มีเส้นและกริดเว้นระยะชัดเจนจะออกมาสะอาด เซลล์ที่ถูกรวมและตารางไม่มีขอบอาจต้องตรวจสอบด้วยตนเอง
เลือกเฉพาะหน้าได้ไหม?
ได้ กำหนดช่วงหน้าเพื่อแยกตารางเฉพาะหน้าที่ต้องการ