PDF sang Word

Chuyển PDF sang
Word

Chuyển PDF thành tài liệu Word có thể chỉnh sửa. Bố cục và bảng được giữ nguyên — tài liệu không rời trình duyệt.

Thả PDF của bạn
Văn bản và cấu trúc có thể chỉnh sửa trong Word.

Tự xác minh: mở DevTools → tab Network → thả một tệp vào. Quan sát không có lượt tải lên nào diễn ra.

Giữ nguyên bố cục Hoạt động ngoại tuyến sau lần tải đầu
Miễn phí
Không đăng ký
Không tải lên
Giữ bố cục
CÁCH HOẠT ĐỘNG

Ba bước. Không tải lên.

1

Thả PDF

Nạp tệp vào bộ nhớ trình duyệt.

2

Chuyển trong trình duyệt

Văn bản, bảng biểu và định dạng được trích xuất cục bộ.

3

Tải DOCX

Mở trong Word hoặc bất kỳ trình soạn thảo nào. PDF gốc vẫn còn nguyên.

Khi nào nên chuyển PDF sang Word

Lý do phổ biến nhất: bạn cần chỉnh sửa tài liệu và thứ duy nhất bạn có là PDF. Ai đó gửi hợp đồng, báo cáo hay bản ghi nhớ, và những chỗ cần thay đổi rải khắp tài liệu — sửa lỗi gõ, cập nhật ngày, đổi một đoạn sang phiên bản đã chỉnh. Làm việc đó trong trình chỉnh sửa PDF được, nhưng nếu có nhiều chữ phải viết lại, mở tệp trong Word nhanh và thoải mái hơn.

Lý do thường gặp khác: bóc các đoạn để dán sang tài liệu khác; sao một mục vào nội dung email; định dạng lại CV nhận được dưới dạng PDF cho vị trí khác; tái sử dụng phần của một bài báo. Bất kỳ chỗ nào cần đưa văn bản từ PDF sang thứ chỉnh sửa được, đây là chuyển đổi cần dùng.

Chuyển đổi này có thể phục hồi gì và không phục hồi gì

Công cụ trích xuất văn bản từ PDF của bạn và xây lại thành tài liệu Word. Trong thực tế điều đó nghĩa gì còn tùy thuộc lớn vào PDF của bạn thật ra là gì.

  • PDF dựa trên văn bản chuyển tốt. Nếu PDF được tạo bằng cách xuất từ Word, qua «Save as PDF» từ ứng dụng bất kỳ, hoặc bởi một hệ thống tạo trực tiếp (công cụ xuất hóa đơn, trình tạo báo cáo), văn bản trong PDF thực sự là văn bản — và công cụ đọc sạch. Word kết quả có các đoạn có thể chọn và chỉnh sửa.
  • PDF từ scan chỉ trở lại dưới dạng đoạn nếu có lớp OCR. Bản scan thuần không OCR chỉ là ảnh các trang — không có văn bản để trích. Nếu PDF được scan nhưng đã có OCR (nhiều máy scan hiện đại và dịch vụ đám mây tự thêm lớp OCR), công cụ sẽ đọc lớp đó và tạo văn bản. Nếu là bản scan thô không OCR, sẽ ra Word trống hoặc gần trống. Trong trường hợp đó, hãy cho PDF qua một công cụ OCR trước.
  • Phục dựng bố cục tốt cho văn xuôi, kém hơn cho bố cục phức tạp. Công cụ phát hiện thân văn bản và tiêu đề bằng cách phân tích kích thước phông và nhóm văn bản theo dòng. Với một tài liệu thông thường — đoạn, tiêu đề, danh sách, bảng đơn giản — cách này hoạt động tốt. Với bố cục nhiều cột, chú thích cuối trang quanh hình ảnh, hộp bên với chữ chảy, kết quả đặt văn bản theo thứ tự đại khái đúng nhưng không theo bố cục gốc.
  • Hình ảnh hiện chưa được trích xuất vào tệp Word. Công cụ tập trung vào văn bản. Nếu PDF có ảnh, biểu đồ hoặc sơ đồ mà bạn cũng cần ở Word, bạn phải tách riêng (mở PDF, chụp màn hình, dán vào Word) hoặc dùng đường chuyển đổi khác.

Còn về định dạng

Công cụ cố giữ những thứ chuyển sang đáng tin cậy:

  • Tiêu đề so với thân văn bản được suy ra từ kích thước phông — văn bản lớn rõ rệt hơn thân được đánh dấu là tiêu đề trong Word.
  • Ngắt đoạn được phát hiện từ giãn dòng, nên các đoạn ở Word khớp các đoạn ở PDF.
  • Kích thước phông được giữ thô ở mức đoạn — văn bản 14pt trong PDF sẽ vào khoảng 14pt trong Word.

Cái khó hơn, và vì sao:

  • In đậm và in nghiêng đòi hỏi PDF thực sự dùng phông đậm hoặc nghiêng (không phải phông thường được trình kết xuất vẽ hơi dày). Nhiều PDF mã hóa đúng; một số thì không.
  • Bảng có gộp ô phức tạp hoặc bảng lồng nhau thường bị làm phẳng thành các đoạn tuyến tính. Bảng đơn giản qua tốt hơn bảng cầu kỳ.
  • Phông gốc được tham chiếu khi có thể, nhưng nếu máy bạn không có, Word sẽ thay bằng phông của nó. Nội dung đúng; ngoại hình có thể khác.

Lưu ý thực tế

  1. Nếu PDF có mật khẩu, mở khóa trước. Cho tệp qua unlock-pdf trước khi chuyển — PDF được mã hóa không mở được để trích xuất văn bản.
  2. Với PDF dài, việc chuyển mất thời gian. Tài liệu 200 trang phải được phân tích từng trang, các dòng nhóm thành đoạn, và .docx được dựng. Trên một laptop điển hình tính khoảng một phút. Kiên nhẫn ở lần chạy đầu.
  3. Vòng lặp có mất mát. Nếu bạn lấy Word, chuyển sang PDF (bằng công cụ nung bố cục thành ảnh) rồi PDF đó trở lại Word — Word thứ hai sẽ thô hơn nhiều so với cái đầu. .docx gốc, nếu vẫn còn đâu đó, luôn sạch hơn. Công cụ này dành cho các trường hợp không còn bản gốc.
  4. Nếu bạn chỉ cần văn bản, không cần tệp Word, xem pdf-to-txt. Nhanh hơn và cho bạn văn bản thuần để dán bất cứ đâu.

Tệp của bạn được xử lý ra sao

PDF của bạn được nạp vào bộ nhớ của trình duyệt, được phân tích tại chỗ thành văn bản và bố cục, và được chuyển sang .docx ngay tại máy. Tệp Word kết quả được mời tải về; không có gì được tải lên, không máy chủ nào xử lý tài liệu của bạn. Bạn có thể kiểm tra: mở DevTools, quan sát tab Network khi đang chuyển — bạn sẽ không thấy yêu cầu nào đi ra mang nội dung tệp.

FAQ

Câu hỏi thường gặp

PDF của tôi có được tải lên máy chủ không?

Không. Việc chuyển đổi diễn ra hoàn toàn trong trình duyệt. Tệp không rời thiết bị.

Có giữ nguyên bảng và định dạng không?

Có. Bảng biểu, danh sách, tiêu đề và phần lớn định dạng đoạn văn được chuyển sang DOCX. Bố cục phức tạp có thể xê dịch nhẹ.

PDF quét có chuyển đổi được không (OCR)?

PDF quét cần OCR để trở thành văn bản có thể chỉnh sửa. PDF dạng số (xuất từ Word, InDesign, v.v.) chuyển đổi gọn gàng.

Có xử lý bố cục phức tạp không?

Cột, chú thích cuối trang và hộp văn bản được xấp xỉ. Để khớp hoàn toàn, hãy so sánh DOCX với bản gốc sau khi chuyển.