Chuyển PDF sang
Excel
Trích bảng từ PDF vào workbook Excel có thể chỉnh sửa. Phát hiện và phân tích diễn ra hoàn toàn trong trình duyệt.
Tự xác minh: mở DevTools → tab Network → thả một tệp vào. Quan sát không có lượt tải lên nào diễn ra.
Ba bước. Không tải lên.
Thả PDF
Nạp vào bộ nhớ trình duyệt.
Phát hiện bảng
Chúng tôi xác định biên bảng và phân tích ô ở phía máy khách.
Tải XLSX
Mở trong Excel, Numbers hoặc Google Sheets.
Khi bảng nằm trong PDF và cần trở lại là bảng
Tình huống thường nảy sinh sau lựa chọn định dạng của ai đó. Ngân hàng gửi sao kê dạng PDF, bạn muốn đổ giao dịch vào bảng tính để cộng một danh mục. Bảng giá nhà cung cấp đến trong PDF, bạn muốn so với quý trước. Cơ quan quản lý chỉ công bố bảng dữ liệu dưới dạng PDF và bạn cần chúng dạng ô để sắp xếp và lọc. Báo cáo lấy về bằng scraping ở dạng PDF và bạn muốn mỗi dòng là một dòng. Trong tất cả những trường hợp này, các con số đều có; chỉ là chúng không hành xử như con số vì bị khoá trong một bố cục.
Việc ở đây là khôi phục dòng và cột: lấy PDF, trả về .xlsx trong đó mỗi trang là một sheet riêng, mỗi dòng là một dòng và mỗi cột là một cột. Từ đó bạn có thể sắp xếp, lọc, cộng, tạo pivot — đó là mục đích của bảng tính.
Vì sao đây là phỏng đoán — và phỏng đoán khá tốt
PDF không lưu bảng. Bên trong, một trang là dòng phẳng các mảnh chữ với toạ độ x/y trên khung. Không có chỗ nào nói «đây là một dòng» hay «cột bắt đầu ở đây» — những cấu trúc này chỉ tồn tại trong mắt bạn khi đọc. Khôi phục chúng nghĩa là suy luận lưới từ vị trí thực sự của chữ.
Công cụ làm điều đó qua vài bước. Trước tiên, gom các mảnh chữ thành dòng theo y: nếu hai mảnh ở khoảng nửa chiều cao dòng theo phương thẳng đứng, chúng thuộc cùng một dòng. Tiếp đó, trong cùng một dòng, các mảnh sát nhau theo phương ngang hợp thành một ô (khoảng cách ký tự thông thường), khoảng trống lớn hơn trở thành ranh giới ô (lối giữa các cột). Cuối cùng, công cụ xem các ô bắt đầu ở đâu trên cả trang, tìm các vị trí x chiếm ưu thế và xem là tâm cột — mỗi ô được gán cho cột gần nhất. Từ đó ra lưới chữ nhật mà bảng tính cần.
Những gì thuật toán làm đúng
- Bảng tài chính cổ điển — sao kê, hoá đơn, bảng giá, báo cáo chi phí. Một dòng cho một bản ghi, lối rõ ràng giữa cột, số căn phải: đúng trường hợp mà heuristic được tinh chỉnh, thường ra sạch.
- Bản ghi một dòng. Khi mỗi bản ghi gọn trong một dòng, việc nhận diện dòng đáng tin.
- Bảng phủ hết chiều ngang trang. Nhận diện cột tốt nhất khi các cột cách nhau rộng và đồng đều trên trang.
- Căn phải và căn trái. Công cụ chấp cả hai — quan trọng là có lối nhận biết giữa các cột.
Nơi nó vất vả
- Ô bị xuống dòng. Một ô có giá trị tràn sang dòng thứ hai — mô tả sản phẩm dài, địa chỉ nhiều dòng — thường tách thành hai dòng. Sửa bằng chỉnh tay nhẹ trong bảng (hoặc chọn pdf-to-txt rồi dựng lại bảng bằng tay nếu chỉnh không bõ công).
- Ô gộp. Một tiêu đề trông như trải hai cột chỉ xuất hiện ở một — cột gần nhất. Việc gộp hiện ra dạng giá trị ở cột A và B trống.
- Hai bảng cạnh nhau. Bộ phát hiện cột nhìn cả hai cùng lúc và có thể đè bẹp thành một bảng rộng. Cắt PDF làm đôi trước thường giúp.
- Văn bản chạy trên cùng trang với bảng. Đoạn văn phía trên bảng đóng góp các «dòng» chữ riêng — vài dòng thực ra không phải dòng, dễ xoá.
- Bảng nhiều trang. Mỗi trang trở thành một sheet riêng. Để ghép thành một bảng liên tục, sao chép và dán các phần dữ liệu sau khi trích xuất.
- PDF được quét. Cùng cảnh báo như mọi trích xuất văn bản: nếu trang là ảnh (sao kê quét, biên lai chụp), không có gì để đọc. Trước tiên cho qua OCR ở công cụ khác.
Bạn nhận được gì cuối cùng
Một tệp .xlsx. Mỗi trang PDF trở thành sheet riêng tên Page 1, Page 2, v.v. Mở được trong Excel, Numbers, Google Sheets, LibreOffice — bất kỳ cái nào. Các ô là giá trị thuần; không định dạng, không công thức, không kiểu. Ý nghĩa: số bây giờ là số, cột bây giờ là cột.
Nếu bạn muốn CSV thay vì xlsx, lưu sheet thành CSV từ ứng dụng bảng tính của bạn — chỉ cách một menu.
Lưu ý thực tế
- Nếu PDF có mật khẩu, cho qua unlock-pdf trước. PDF mã hoá không thể mở để trích ô.
- Với bảng rất rộng, xoay PDF nguồn về ngang trước khi trích xuất giúp — ít cột hơn, lối giữa cột sạch hơn. Xoay ở edit-pdf.
- Nếu bạn chỉ cần văn bản không cần cấu trúc, pdf-to-txt nhanh hơn và kết quả dễ sắp xếp lại hơn.
- Thao tác ngược lại — đặt sheet Excel vào PDF — là excel-to-pdf.
Điều gì xảy ra với tệp của bạn
Việc trích xuất chạy trong trình duyệt của bạn. Mở DevTools và quan sát tab Network khi thao tác — không có yêu cầu đi ra mang nội dung tệp. PDF nằm yên trên ổ; .xlsx là tải xuống mới bên cạnh.
Câu hỏi thường gặp
PDF của tôi có được tải lên không?
Không. Phát hiện và phân tích diễn ra hoàn toàn trong trình duyệt. Tệp không rời thiết bị.
Có dùng được trên PDF quét (OCR)?
Bảng quét cần OCR để trở thành ô có thể chỉnh sửa. PDF nền văn bản (có văn bản chọn được) trích trực tiếp.
Phát hiện bảng chính xác đến đâu?
Bảng có đường kẻ và lưới cách đều trích rất gọn. Ô gộp và bảng không viền có thể cần rà soát thủ công.
Có thể chọn trang cụ thể không?
Có. Chọn dải trang để chỉ trích bảng từ các trang bạn cần.