PDF sang Văn bản

Trích xuất văn bản từ mọi PDF,
trong trình duyệt.

Lấy ra một lớp văn bản sạch từ bất kỳ PDF nào — đoạn văn được giữ nguyên, đa trang, UTF-8. Việc trích xuất diễn ra trong trình duyệt, nên tệp không bao giờ rời khỏi thiết bị.

Thả PDF mà bạn muốn trích xuất văn bản
Chúng tôi đọc lớp văn bản nhúng bằng pdf.js — không OCR, không máy chủ.
Đa trang · Đầu ra UTF-8 PDF được quét cần OCR — công cụ này chỉ đọc lớp văn bản
Miễn phí
Không cần đăng ký
Không tải lên
Đầu ra UTF-8
CÁCH HOẠT ĐỘNG

Ba bước. PDF của bạn không bao giờ rời khỏi tab này.

1

Thả PDF của bạn

Chọn tệp bạn muốn trích xuất văn bản. Tệp được nạp vào bộ nhớ trình duyệt, không phải máy chủ.

2

Chúng tôi đọc lớp văn bản

pdf.js duyệt từng trang, sắp xếp các phần tử theo tọa độ Y và tái tạo dấu ngắt đoạn ở đúng vị trí.

3

Sao chép hoặc tải .txt

Nhận văn bản thuần UTF-8 sạch. Sao chép vào clipboard hoặc lưu thành .txt — tùy bạn.

FAQ

Câu hỏi thường gặp

Quá trình trích xuất hoạt động ra sao?

Chúng tôi dùng pdf.js của Mozilla để đọc lớp văn bản nhúng của PDF từng trang một. Các phần tử được nhóm theo tọa độ Y nên dấu ngắt đoạn được giữ nguyên — không máy chủ, không tải lên.

Có chạy được trên PDF được quét không?

Không. Bản quét là hình ảnh của văn bản, không phải văn bản — trích xuất cần OCR, mà công cụ này không chạy. Nếu PDF của bạn xuất phát từ giấy quét, hãy dùng công cụ OCR trước.

Tệp của tôi có được tải lên đâu không?

Không bao giờ. Việc trích xuất chạy hoàn toàn trong trình duyệt qua WebAssembly — có thể kiểm tra trong DevTools → Network. Tệp ở lại thiết bị của bạn.

Còn PDF có mật khẩu thì sao?

Hãy mở khóa PDF trước bằng công cụ Mở khóa PDF rồi mới trích xuất. Luồng nội dung mã hóa không thể phân tích nếu không có mật khẩu.

Giới hạn kích thước tệp là bao nhiêu?

Tối đa 100 MB. Lớn hơn có thể làm cạn bộ nhớ trình duyệt — hãy thử chia nhỏ trước bằng Chia PDF.