PDF를 텍스트로

모든 PDF에서 텍스트 추출,
브라우저에서.

어떤 PDF에서도 깨끗한 텍스트 레이어를 뽑아내세요 — 단락 보존, 다중 페이지, UTF-8. 추출은 브라우저 내부에서 실행되므로 파일이 기기를 벗어나지 않습니다.

텍스트를 추출할 PDF를 놓으세요
pdf.js로 임베디드 텍스트 레이어를 읽습니다 — OCR 없음, 서버 없음.
다중 페이지 · UTF-8 출력 스캔된 PDF에는 OCR이 필요합니다 — 이 도구는 텍스트 레이어만 읽습니다
무료
가입 불필요
업로드 없음
UTF-8 출력
작동 방식

세 단계. PDF는 이 탭을 떠나지 않습니다.

1

PDF 놓기

텍스트를 추출할 파일을 선택하세요. 서버가 아닌 브라우저 메모리에 로드됩니다.

2

텍스트 레이어 읽기

pdf.js가 각 페이지를 순회하며 항목을 Y 좌표로 정렬하고, 단락 줄바꿈을 제자리에 재구성합니다.

3

복사 또는 .txt 다운로드

깨끗한 UTF-8 일반 텍스트를 받으세요. 클립보드에 복사하거나 .txt로 저장하세요 — 선택은 자유.

FAQ

자주 묻는 질문

추출은 어떻게 작동하나요?

Mozilla의 pdf.js로 PDF의 임베디드 텍스트 레이어를 페이지별로 읽습니다. 항목을 Y 좌표로 그룹화해 단락 줄바꿈이 그대로 유지됩니다 — 서버 없이, 업로드 없이.

스캔된 PDF에서도 작동하나요?

아니요. 스캔본은 텍스트의 이미지일 뿐 실제 텍스트가 아닙니다 — 추출에는 OCR이 필요하지만 이 도구는 OCR을 실행하지 않습니다. 종이를 스캔해 만든 PDF라면 먼저 OCR 도구가 필요합니다.

파일이 어디로 업로드되나요?

전혀 그렇지 않습니다. 추출은 WebAssembly로 브라우저 내부에서 전부 실행됩니다 — DevTools → 네트워크 탭에서 확인 가능합니다. 파일은 기기에 남습니다.

비밀번호로 보호된 PDF는요?

먼저 PDF 잠금 해제 도구로 PDF를 해제한 다음 추출하세요. 암호화된 콘텐츠 스트림은 비밀번호 없이는 파싱할 수 없습니다.

파일 크기 제한은 얼마인가요?

최대 100MB. 그 이상은 브라우저 메모리를 모두 소진할 수 있습니다 — PDF 분할 도구로 먼저 나눠 보세요.