PDF에서 Excel로

PDF 엑셀 변환

PDF에서 편집 가능한 Excel 통합 문서로 표를 추출합니다. 검출과 파싱은 전부 브라우저에서 이루어집니다.

PDF 놓기
표를 감지해 깔끔한 XLSX로 내보냅니다.

직접 확인하세요: DevTools 열기 → Network 탭 → 파일 드롭. 업로드가 전혀 없음을 확인할 수 있습니다.

표 자동 감지 첫 로드 이후 오프라인 동작
무료
가입 불필요
업로드 없음
표 유지
동작 방식

세 단계. 업로드 0.

1

PDF 놓기

브라우저 메모리에 로드합니다.

2

표 감지

표 경계를 찾고 셀을 클라이언트에서 파싱합니다.

3

XLSX 다운로드

Excel, Numbers, 구글 스프레드시트에서 여세요.

표가 PDF 안에 갇혀 있고 다시 표가 되어야 할 때

이런 일은 보통 다른 사람의 형식 선택을 따라옵니다. 은행이 거래 내역서를 PDF로 보내고, 거래를 스프레드시트에 부어 한 카테고리를 합산하고 싶다. 거래처의 가격표가 PDF로 와서 지난 분기와 비교하고 싶다. 규제 기관이 데이터 표를 PDF로만 공개하는데 정렬과 필터를 위해 셀로 필요하다. 스크레이핑된 보고서가 PDF인데 모든 행을 행으로 갖고 싶다. 이 모든 경우에 숫자는 존재합니다. 다만 레이아웃에 갇혀서 숫자처럼 행동하지 않을 뿐입니다.

여기서 할 일은 행과 열을 되찾는 것입니다 — PDF를 받아 각 페이지가 자신의 시트가 되고 모든 행이 행, 모든 열이 열이 되는 .xlsx를 돌려주는 것. 그 뒤로는 정렬, 필터, 합산, 피벗 — 스프레드시트의 본업을 할 수 있습니다.

왜 이것이 짐작인가 — 그래도 꽤 좋은 짐작

PDF는 표를 저장하지 않습니다. 안에서 페이지는 캔버스 위에 x/y 좌표를 가진 텍스트 조각의 평평한 흐름입니다. 「이게 행이다」 「여기서 열이 시작」 같은 말은 어디에도 없습니다 — 그 구조는 당신이 읽는 동안 눈 안에서만 존재합니다. 되찾는다는 건 텍스트가 실제로 놓인 위치에서 격자를 추론한다는 뜻입니다.

도구는 이를 몇 단계로 합니다. 먼저 텍스트 조각을 y 좌표로 묶어 행으로 만듭니다 — 두 조각이 세로로 대략 행 높이의 절반 안에 있다면 같은 행입니다. 다음으로 한 행 안에서 가로로 가까운 조각들은 한 셀로 합쳐지고(보통의 글자 간격), 더 넓은 간격은 셀 경계(열 사이의 통로)가 됩니다. 마지막으로 페이지 전체에서 셀이 어디서 시작하는지 살피고 지배적인 x 위치를 열 중심으로 다룹니다 — 각 셀은 가장 가까운 열에 들어갑니다. 그래서 스프레드시트가 원하는 직사각형 격자가 만들어집니다.

알고리즘이 잘하는 것

  • 고전적인 재무 표 — 거래 내역서, 청구서, 가격표, 경비 보고서. 한 레코드 한 행, 열 사이의 명확한 통로, 오른쪽 정렬된 숫자: 휴리스틱이 정확히 맞춘 사례이며 보통 깨끗이 통과합니다.
  • 한 줄 항목. 각 레코드가 한 행에 들어맞을 때 행 감지가 신뢰할 만합니다.
  • 페이지 폭을 채우는 표. 열 감지는 열이 충분히 떨어져 있고 페이지 전체에서 일정할 때 가장 잘 작동합니다.
  • 오른쪽 정렬과 왼쪽 정렬. 둘 다 받아들입니다 — 중요한 것은 열 사이의 알아볼 만한 통로입니다.

어려워하는 것

  • 줄 바꿈된 셀. 값이 둘째 줄로 넘어가는 셀 — 긴 제품 설명, 여러 줄 주소 — 은 보통 두 행으로 쪼개집니다. 시트에서 가벼운 손질로 고치거나(또는 손질이 그만한 가치가 없다면 pdf-to-txt를 쓰고 표를 손으로 다시 만드세요).
  • 병합된 셀. 시각적으로 두 열을 덮는 머리글은 한 열에만 — 가장 가까운 열에만 — 나타납니다. 병합은 A열에 값, B열에 빈칸으로 보입니다.
  • 나란히 놓인 두 표. 열 감지기는 둘을 동시에 보고 한 넓은 표로 짓눌러버릴 수 있습니다. PDF를 미리 반으로 자르는 것이 도움이 됩니다.
  • 표와 같은 페이지의 본문. 표 위의 단락은 자기만의 「행」을 텍스트로 더합니다 — 실제로는 행이 아닌 몇 줄이며 지우기 쉽습니다.
  • 여러 페이지에 걸친 표. 페이지마다 별도 시트가 됩니다. 하나의 연속된 표로 꿰매려면 추출 후 데이터 구역을 복사하여 이어 붙이세요.
  • 스캔된 PDF. 어떤 텍스트 추출에서나 똑같은 단서: 페이지가 이미지(스캔된 명세서, 사진 찍힌 영수증)라면 읽을 것이 없습니다. 먼저 다른 도구에서 OCR을 거치세요.

마지막에 받게 되는 것

.xlsx 파일 하나. 각 PDF 페이지는 Page 1, Page 2 같은 이름의 자기만의 시트가 됩니다. Excel, Numbers, Google Sheets, LibreOffice — 어디서든 열립니다. 셀은 단순한 값이며 서식, 수식, 스타일이 없습니다. 핵심은: 숫자가 다시 숫자가 되고 열이 다시 열이 된다는 것입니다.

xlsx 대신 CSV가 좋다면 스프레드시트 앱에서 시트를 CSV로 저장하세요 — 메뉴 하나 거리입니다.

실용 메모

  1. PDF가 비밀번호로 보호되어 있다면 먼저 unlock-pdf를 거치세요. 암호화된 PDF는 셀 추출용으로 열 수 없습니다.
  2. 매우 넓은 표는 추출 전에 원본 PDF를 가로로 회전하면 도움이 됩니다 — 열이 줄고 통로가 더 깨끗해집니다. 회전은 edit-pdf에서.
  3. 구조 없이 텍스트만 필요하다면 pdf-to-txt가 더 빠르고 결과도 다시 흘려 넣기 쉽습니다.
  4. 역방향 작업 — Excel 시트를 PDF에 넣는 것 — 은 excel-to-pdf입니다.

파일은 어떻게 처리되나

추출은 여러분의 브라우저에서 실행됩니다. DevTools를 열고 작업 중 Network 탭을 보세요 — 파일 내용을 실은 외부 요청이 보이지 않습니다. PDF는 디스크에 그대로 두고, .xlsx는 그 옆의 새 다운로드입니다.

FAQ

자주 묻는 질문

내 PDF가 업로드되나요?

아니요. 감지와 파싱은 전부 브라우저에서 이루어집니다. 파일은 기기에서 나가지 않습니다.

스캔된 PDF에서도 작동하나요(OCR)?

스캔된 표는 편집 가능한 셀이 되려면 OCR이 필요합니다. 텍스트 기반 PDF(선택 가능한 텍스트)는 바로 추출됩니다.

표 감지 정확도는 어떤가요?

선이 있는 표와 간격이 명확한 격자는 깔끔하게 추출됩니다. 병합된 셀과 테두리 없는 표는 수동 확인이 필요할 수 있습니다.

특정 페이지만 선택할 수 있나요?

네. 페이지 범위를 지정해 필요한 페이지의 표만 추출하세요.