Trích xuất văn bản từ mọi PDF,
trong trình duyệt.
Lấy ra một lớp văn bản sạch từ bất kỳ PDF nào — đoạn văn được giữ nguyên, đa trang, UTF-8. Việc trích xuất diễn ra trong trình duyệt, nên tệp không bao giờ rời khỏi thiết bị.
Ba bước. PDF của bạn không bao giờ rời khỏi tab này.
Thả PDF của bạn
Chọn tệp bạn muốn trích xuất văn bản. Tệp được nạp vào bộ nhớ trình duyệt, không phải máy chủ.
Chúng tôi đọc lớp văn bản
pdf.js duyệt từng trang, sắp xếp các phần tử theo tọa độ Y và tái tạo dấu ngắt đoạn ở đúng vị trí.
Sao chép hoặc tải .txt
Nhận văn bản thuần UTF-8 sạch. Sao chép vào clipboard hoặc lưu thành .txt — tùy bạn.
Câu hỏi thường gặp
Quá trình trích xuất hoạt động ra sao?
Chúng tôi dùng pdf.js của Mozilla để đọc lớp văn bản nhúng của PDF từng trang một. Các phần tử được nhóm theo tọa độ Y nên dấu ngắt đoạn được giữ nguyên — không máy chủ, không tải lên.
Có chạy được trên PDF được quét không?
Không. Bản quét là hình ảnh của văn bản, không phải văn bản — trích xuất cần OCR, mà công cụ này không chạy. Nếu PDF của bạn xuất phát từ giấy quét, hãy dùng công cụ OCR trước.
Tệp của tôi có được tải lên đâu không?
Không bao giờ. Việc trích xuất chạy hoàn toàn trong trình duyệt qua WebAssembly — có thể kiểm tra trong DevTools → Network. Tệp ở lại thiết bị của bạn.
Còn PDF có mật khẩu thì sao?
Hãy mở khóa PDF trước bằng công cụ Mở khóa PDF rồi mới trích xuất. Luồng nội dung mã hóa không thể phân tích nếu không có mật khẩu.
Giới hạn kích thước tệp là bao nhiêu?
Tối đa 100 MB. Lớn hơn có thể làm cạn bộ nhớ trình duyệt — hãy thử chia nhỏ trước bằng Chia PDF.