PDF를 텍스트로

모든 PDF에서 텍스트 추출,
브라우저에서.

어떤 PDF에서도 깨끗한 텍스트 레이어를 뽑아내세요 — 단락 보존, 다중 페이지, UTF-8. 추출은 브라우저 내부에서 실행되므로 파일이 기기를 벗어나지 않습니다.

텍스트를 추출할 PDF를 놓으세요
pdf.js로 임베디드 텍스트 레이어를 읽습니다 — OCR 없음, 서버 없음.

직접 확인하세요: DevTools 열기 → Network 탭 → 파일 드롭. 업로드가 전혀 없음을 확인할 수 있습니다.

다중 페이지 · UTF-8 출력 스캔된 PDF에는 OCR이 필요합니다 — 이 도구는 텍스트 레이어만 읽습니다
무료
가입 불필요
업로드 없음
UTF-8 출력
작동 방식

세 단계. PDF는 이 탭을 떠나지 않습니다.

1

PDF 놓기

텍스트를 추출할 파일을 선택하세요. 서버가 아닌 브라우저 메모리에 로드됩니다.

2

텍스트 레이어 읽기

pdf.js가 각 페이지를 순회하며 항목을 Y 좌표로 정렬하고, 단락 줄바꿈을 제자리에 재구성합니다.

3

복사 또는 .txt 다운로드

깨끗한 UTF-8 일반 텍스트를 받으세요. 클립보드에 복사하거나 .txt로 저장하세요 — 선택은 자유.

PDF가 아니라 글자가 필요할 때

PDF에서 글자를 빼내려는 이유는 거의 모두 같은 한 가지로 모입니다 — 단어들을 PDF가 들어갈 수 없는 곳으로 옮기려는 것. 인용문을 메일에 붙여넣고 싶은데 PDF를 첨부로 끌고 가고 싶지 않다. 평문만 받는 AI 어시스턴트에 긴 문서를 먹이려 한다. 200쪽짜리 보고서를 한 구절로 grep하고 싶은데 리더의 검색이 무언가를 가린다. 계약서를 번역 중인데 번역 도구가 원문을 평문 파일로 원한다. 다 짜인 원고를 PDF에서 다시 글쓰기 앱으로 옮긴다. 모든 경우에 길을 막는 건 포장 — 단어들은 멀쩡한데 다시 짜기 어려운 레이아웃에 갇혀 있을 뿐입니다.

여기서 출력은 정확히 그것입니다 — 평문, 하나의 큰 .txt 파일, PDF가 읽히는 순서 그대로. 서식 없음, 글꼴 없음, 이미지 없음, 표를-표로 유지하지 않음. 일은 단어를 풀어주는 것입니다.

「추출」이 실제로 하는 일

PDF는 두 종류의 「텍스트」를 갖습니다. 진짜 텍스트 — 글꼴로 그려지고 PDF가 글자로 표시한 문자 — 는 텍스트 레이어에 있습니다. 도구는 그 레이어를 직접 읽습니다. 다른 한 종류는 픽셀로만 존재하는 텍스트 — PDF에 들어가기 전에 스캔되거나 촬영되거나 스크린샷으로 찍힌 모든 것입니다. 이 문자들은 글자의 그림이지 글자가 아니며, OCR 없이는 어떤 추출기도 텍스트로 보지 못합니다. 여기엔 OCR 단계가 없습니다.

두 가지 빠른 점검으로 어떤 PDF인지 알 수 있습니다. 아무 리더에서나 열고 한 단락 위로 클릭하여 드래그해 보세요. 텍스트가 깨끗이 선택되면 텍스트 레이어가 있고 추출이 동작합니다. 커서가 사각형을 그리고 아무것도 선택되지 않으면 그 페이지는 이미지이며, 추출기가 읽을 거리를 가지려면 다른 도구에서 OCR을 먼저 통과시켜야 합니다.

줄바꿈과 단락은 어떻게 나오나

PDF는 단락을 저장하지 않습니다. 안에서 한 페이지는 위치를 가진 텍스트 조각의 자루이며, 「여기서 단락 끝」이라고 말하는 메타데이터는 어디에도 없습니다. 줄바꿈 없는 평문은 읽기 어려우니, 도구는 세로 간격에서 추론합니다 — 행 사이의 작은 간격은 한 번의 줄바꿈으로, 더 큰 간격(디자이너가 단락 사이에 두는 종류)은 빈 줄로. 흔한 경우는 잘 나옵니다 — 본문, 제목, 목록. 디자이너가 다른 의도로 흔치 않은 간격을 사용했다면 도구는 짐작할 수 없으니 그런 자리는 가벼운 손질이 필요할 수 있습니다.

출력에서 페이지는 빈 줄로 구분됩니다. 페이지 구분이 아예 싫다면, 두 줄 빈줄을 한 줄로 바꾸는 찾기-바꾸기로 사라집니다.

추출에서 살아남지 않는 것들

  • 굵게, 기울임, 글꼴, 색상, 정렬. 평문은 평평합니다. 서식을 유지해야 한다면 pdf-to-word를 보세요.
  • 표. 셀은 읽기 순서대로 평문이 됩니다 — 보통 행 단위로, 종종 어색한 간격과 함께. 표로 남아야 하는 표는 pdf-to-excel의 영역입니다.
  • 이미지와 다이어그램. PDF 안에서 글자가 아니었던 것은 텍스트에 나타나지 않습니다. 이미지를 따로 빼려면 pdf-to-jpg를 보세요.
  • 머리글과 바닥글. 원본이 매 페이지에 「대외비 — X / Y 페이지」를 반복했다면, 추출된 텍스트도 그렇게 됩니다. 찾기-바꾸기로 몇 초면 사라집니다.
  • 줄 끝에서 하이픈으로 끊긴 단어. 하이픈으로 갈라진 단어는 some-\nthing처럼 나오지 something이 아닙니다. 이후의 검색이나 맞춤법 검사에서 의미가 있으면 정규식 -\n → 빈 문자열이 고쳐줍니다.
  • 다단 레이아웃은 섞일 수 있습니다. 2단 학술 논문은 왼쪽과 오른쪽 단의 문장이 교차로 나올 수 있습니다. 단단 문서 — 대부분의 보고서, 계약서, 책 — 는 영향을 받지 않습니다. 섞인 결과가 쓸 수 없다면, 단 순서를 존중하는 도구에서 PDF를 열고 다시 추출하는 편이 깔끔합니다.

몇 가지 실용 메모

  1. PDF가 비밀번호로 보호되어 있다면 먼저 unlock-pdf를 거치세요. 암호화된 PDF는 텍스트 추출용으로 열 수 없습니다.
  2. 매우 큰 PDF(수백 MB, 수천 페이지)의 경우에도 추출은 여러분의 브라우저에서 돌아갑니다. 데스크톱에서는 거의 문제가 되지 않지만, 폰에서 500쪽 스캔을 다루면 브라우저 메모리가 천장이 됩니다. 그때는 데스크톱에서.
  3. 출력은 UTF-8. 키릴, 그리스, 아랍, 한자, 한글, 분음 부호가 붙은 라틴은 PDF가 진짜 텍스트로 저장했다면 모두 깨끗이 통과합니다. 비라틴 문자를 적절한 인코딩 없이 임베디드 서브셋 글리프로 그린 PDF는 추출 시 깨진 문자가 나옵니다 — PDF 자체의 문제이지 추출기의 문제가 아닙니다. 해결은 원본 측에서 — 올바른 Unicode 인코딩으로 다시 내보내기.
  4. 파일 이름 패턴. contract.pdf 파일은 contract.txt로 다운로드됩니다. 디스크의 PDF는 그대로 있습니다.

파일은 어떻게 처리되나

추출은 여러분의 브라우저 안에서 실행됩니다. DevTools를 열고 작업 중 Network 탭을 보세요 — 파일 내용을 실은 외부 요청은 보이지 않습니다. PDF는 디스크에 그대로 두고, .txt는 그 옆의 새 다운로드입니다.

FAQ

자주 묻는 질문

추출은 어떻게 작동하나요?

Mozilla의 pdf.js로 PDF의 임베디드 텍스트 레이어를 페이지별로 읽습니다. 항목을 Y 좌표로 그룹화해 단락 줄바꿈이 그대로 유지됩니다 — 서버 없이, 업로드 없이.

스캔된 PDF에서도 작동하나요?

아니요. 스캔본은 텍스트의 이미지일 뿐 실제 텍스트가 아닙니다 — 추출에는 OCR이 필요하지만 이 도구는 OCR을 실행하지 않습니다. 종이를 스캔해 만든 PDF라면 먼저 OCR 도구가 필요합니다.

파일이 어디로 업로드되나요?

전혀 그렇지 않습니다. 추출은 WebAssembly로 브라우저 내부에서 전부 실행됩니다 — DevTools → 네트워크 탭에서 확인 가능합니다. 파일은 기기에 남습니다.

비밀번호로 보호된 PDF는요?

먼저 PDF 잠금 해제 도구로 PDF를 해제한 다음 추출하세요. 암호화된 콘텐츠 스트림은 비밀번호 없이는 파싱할 수 없습니다.

파일 크기 제한은 얼마인가요?

최대 100MB. 그 이상은 브라우저 메모리를 모두 소진할 수 있습니다 — PDF 분할 도구로 먼저 나눠 보세요.