แปลงรูปเป็นข้อความ

แปลงรูปเป็นข้อความ
ในเบราว์เซอร์

ลากภาพหน้าจอ รูปจากมือถือ ภาพสแกน หรือ PDF หน้าเดียวลงมา แล้วคัดลอกข้อความได้ภายในไม่กี่วินาที รองรับภาษาไทย อังกฤษ และอีก 23 ภาษา เครื่องอ่านทำงานในเบราว์เซอร์ของคุณ — ไฟล์ไม่ส่งไปยังเซิร์ฟเวอร์ของเรา

ลากรูปของคุณมาวางที่นี่

JPG, PNG, WebP, HEIC หรือ PDF หน้าเดียว ครั้งแรกเครื่องอ่านจะโหลดเข้าเบราว์เซอร์และเก็บแคชไว้ — หลังจากนั้นทำงานในเครื่อง ไม่อัปโหลด

ลองตรวจสอบเอง: เปิด DevTools ไปที่แท็บ Network แล้วลากไฟล์ลงมา — คุณจะเห็นว่าไม่มีคำขอใดที่นำรูปของคุณออกไป

25 ภาษา ความแม่นยำ 95%+ บนสแกนคุณภาพดี ใช้งานออฟไลน์ได้หลังโหลดครั้งแรก

ฟรี

ไม่ต้องสมัคร

ไฟล์อยู่บนเครื่องคุณ

25 ภาษา

ผลลัพธ์

ข้อความล้วน

กำลังอ่านข้อความ…

bay-set.jpg เสร็จ

ไฟล์อยู่บนอุปกรณ์ของคุณ

ทุกเครื่องมือ

0 ไบต์ส่งเซิร์ฟเวอร์

วิธีใช้งาน

สามขั้นตอน

ลากรูปลงมา

JPG, PNG, WebP, HEIC จาก iPhone หรือ PDF หน้าเดียว ไฟล์เปิดในเบราว์เซอร์และอยู่ตรงนั้น ครั้งแรกที่ใช้เครื่องมือ ระบบจะดาวน์โหลดเครื่องอ่าน (ประมาณ 10 MB) เข้าเบราว์เซอร์และเก็บแคชไว้ — การรันครั้งต่อ ๆ ไปเริ่มทันทีและใช้งานออฟไลน์ได้

รอไม่กี่วินาทีให้เครื่องอ่าน

Tesseract.js — เวอร์ชัน WebAssembly ของเครื่อง OCR Tesseract ที่ Google ดูแล — ทำงานในเบราว์เซอร์ทั้งหมด ภาพสแกน A4 คุณภาพดีใช้เวลา 3–8 วินาทีบนโน้ตบุ๊กรุ่นใหม่ รูปใบเสร็จหรือป้ายที่ถ่ายจากมือถือมักจะต่ำกว่า 4 วินาที แถบความคืบหน้าจะแสดงทั้งช่วงอุ่นเครื่องและช่วงอ่านหน้านั้น ๆ

คัดลอกข้อความหรือดาวน์โหลดไฟล์ .txt

ผลลัพธ์จะอยู่ในกล่องข้อความล้วนพร้อมคะแนนความมั่นใจ คัดลอกไปยังคลิปบอร์ดหรือบันทึกเป็นไฟล์ .txt แบบ UTF-8 ทุกอย่างที่ทำงาน — แกน WASM โมเดลภาษา ตัวการอ่านเอง — เกิดขึ้นบนอุปกรณ์ของคุณ ไม่มีไฟล์ ข้อความที่อ่านได้ หรือเมตาเดต้าใด ๆ ที่ไปถึงเซิร์ฟเวอร์ของเรา

OCR ทำอะไรกันแน่

OCR (Optical Character Recognition หรือการรู้จำตัวอักษรด้วยแสง) เปลี่ยนพิกเซลที่ดูเหมือนตัวอักษรให้เป็นข้อความที่คอมพิวเตอร์เข้าใจ รูปใบเสร็จหรือสแกนหน้าหนังสือเป็นเพียงจุดสีสำหรับคอมพิวเตอร์ จนกว่าโมเดลที่ผ่านการฝึกกับตัวอักษรพิมพ์หลายล้านตัวจะจับคู่ลวดลายจุดเหล่านั้นกลับเป็น a, b, 9, = เครื่องมือนี้ใช้ Tesseract — ตัวเดียวกับที่ Internet Archive ใช้สแกนหนังสือ, ABBYY ในเวอร์ชันฟรีใช้, และโปรแกรมอ่าน PDF โอเพนซอร์สส่วนใหญ่ใช้ — เพียงแต่ที่นี่คอมไพล์เป็น WebAssembly เพื่อให้รันในเบราว์เซอร์ของคุณ แทนที่จะเป็นเซิร์ฟเวอร์ของคนอื่น

คุณวางอะไรลงไปได้บ้าง

JPG, PNG, WebP, HEIC (iPhone) และ PDF หน้าเดียว HEIC ถูกถอดรหัสภายในเบราว์เซอร์ — ไม่ต้องผ่านขั้นแปลงไฟล์แยก PDF หลายหน้า: อ่านได้เฉพาะหน้าแรก ถ้าคุณต้องการทุกหน้า ให้แบ่ง PDF ก่อนด้วย split-pdf แล้วประมวลผลทีละหน้า รูปที่ถ่ายตรงจากมือถือใช้ได้ ภาพหน้าจอ สแกนจากเครื่องสแกนแบบแท่น และภาพแคปเจอร์หน้าจอก็เช่นกัน ขีดจำกัดเชิงปฏิบัติคือ 25 MB ต่อไฟล์ — เกินจากนี้เบราว์เซอร์เริ่มลำบากในการเก็บ canvas และ WASM heap ในหน่วยความจำพร้อมกัน

อินพุตที่ดีเป็นอย่างไร

คุณภาพ OCR ขึ้นอยู่กับภาพมากกว่าตัวเครื่องอ่าน ภาพสแกน 300 DPI จากเครื่องสแกนแบบแท่นของหน้ากระดาษพิมพ์ดีดจะได้ความแม่นยำ 98–99% โดยไม่ต้องปรับแต่ง รูปใบเสร็จที่ชัดในแสงพอใช้: 95%+ รูปสัญญาที่ถ่ายเบลอ ๆ ในแสงน้อยและเอียง: 60–80% และผลลัพธ์ต้องตรวจซ้ำ สามอย่างที่กระทบความแม่นยำมากที่สุด: ความคมชัด (โฟกัสกล้องก่อนกดถ่าย), คอนทราสต์ (ใบเสร็จตัวขาวบนพื้นดำยากกว่าตัวดำบนพื้นขาว) และ ทิศทาง (เครื่องอ่านรับเอียงเล็กน้อยได้ แต่ภาพที่หมุน 90 องศาต้องหมุนกลับให้ตรงก่อน) ถ้าคุณกำลังสแกนบัตรประชาชน หนังสือเดินทาง สลิปเงินเดือน หรือสัญญา และความแม่นยำสำคัญ ให้ใช้แอปสแกนก่อน — Notes ใน iOS, Google Drive หรือ Adobe Scan จะแก้มุมมองและคอนทราสต์ก่อนบันทึก

ภาษา

เวอร์ชัน v1 มาพร้อม 25 ภาษา — หนึ่งภาษาต่อ locale ของ Vastiko บวกจีนตัวย่อสำหรับผู้ใช้แผ่นดินใหญ่ ละติน: อังกฤษ, เยอรมัน, ฝรั่งเศส, สเปน, อิตาลี, โปรตุเกส (ครอบคลุมบราซิลด้วย), โปแลนด์, ดัตช์, เดนมาร์ก, สวีเดน, โรมาเนีย, ฮังการี, เช็ก, ตุรกี, อินโดนีเซีย, เวียดนาม ซีริลลิก: รัสเซีย, ยูเครน กรีก อาหรับ (เขียนจากขวาไปซ้าย) ไทย CJK: ญี่ปุ่น, เกาหลี, จีนตัวย่อ (แผ่นดินใหญ่), จีนตัวเต็ม (ไต้หวัน / ฮ่องกง)

เครื่องมือจะคาดเดาภาษาของคุณจาก locale ของเบราว์เซอร์ในการโหลดครั้งแรก — เบราว์เซอร์ภาษาไทยเปิดด้วยภาษาไทยที่เลือกไว้ล่วงหน้า เบราว์เซอร์ภาษาญี่ปุ่นเปิดด้วยภาษาญี่ปุ่น เป็นต้น คุณเปลี่ยนได้ทุกเมื่อจากแถบด้านบน ตัวเลือกล่าสุดถูกบันทึกข้ามเซสชัน ชุดภาษาแต่ละชุดดาวน์โหลดเฉพาะการใช้ครั้งแรก (1–6 MB ขึ้นกับชุดตัวอักษร — ตัวอักษรละตินบีบอัดได้ดีกว่า CJK) และเก็บแคชในเบราว์เซอร์ การเปลี่ยนภาษาเป็นการดาวน์โหลดครั้งเดียวต่อภาษา; การใช้ครั้งต่อ ๆ ไปเริ่มทันที

เอกสารภาษาไทยในชีวิตจริงไม่ค่อยเป็นภาษาไทยล้วน 100% สัญญามักมี Excel, PDF และ LINE; สลิปธนาคารมี SWIFT, IBAN และชื่อธนาคารต่างประเทศเป็นภาษาอังกฤษ; ใบกำกับภาษีมีรหัสประเทศและคำเทคนิคภาษาอังกฤษปนกับภาษาไทย เพราะอย่างนั้น การเลือกภาษาอื่นที่ไม่ใช่อังกฤษเป็นภาษาหลัก ระบบจะโหลดภาษาอังกฤษเป็นชุดตัวอักษรรองในการอ่านครั้งเดียวกันโดยอัตโนมัติ — เครื่องอ่านจะพิจารณาทั้งสองชุดตัวอักษรและเลือกการอ่านที่มีความมั่นใจสูงกว่าสำหรับแต่ละคำ ราคาที่จ่าย: ใช้หน่วยความจำมากขึ้นประมาณ 2× และช้าลงประมาณ 30% เมื่อเทียบกับชุดเดียว แต่คุ้ม เพราะตัวเลือกอีกทางคือชื่อแบรนด์ภาษาอังกฤษออกมาเพี้ยนกลางข้อความภาษาไทย

สิ่งที่เครื่องมือนี้ทำได้ไม่ดี

ลายมือเขียน Tesseract ฝึกบนข้อความพิมพ์ อักษรคอร์ซีฟ ใบสั่งยาที่หมอเขียนมือ บันทึกในสมุด — สิ่งเหล่านี้ทำให้โมเดลสับสน (Microsoft Read API และ Google Cloud Vision ทำได้ดีกว่าอย่างมีนัยสำคัญ แต่ทั้งสองต้องอัปโหลดภาพ) ตารางซับซ้อน PDF ของสเปรดชีตจะออกมาเป็นข้อความแบนที่คอลัมน์ติดกัน เครื่องมือนี้รักษาลำดับการอ่าน ไม่ใช่โครงสร้างของตาราง สำหรับตารางที่ต้องคงสภาพเป็นข้อมูล ใช้ pdf-to-excel ฟอนต์ตกแต่งหรือสไตล์พิเศษ โลโก้ ฟอนต์หัวข้อขนาดใหญ่ เอฟเฟกต์ตัวอักษรแบบเรนเดอร์ — มักล้มเหลวหรือคืนคำที่อ่านไม่ออก เพราะโมเดลคาดหวังรูปทรงของข้อความเนื้อหา ความละเอียดต่ำมาก ภาพหน้าจอย่อหน้าที่กว้าง 320 พิกเซล: เดา; ที่กว้าง 1500 พิกเซล: อ่านได้

ทำไมเราให้สิ่งนี้อยู่ในเบราว์เซอร์ของคุณ

เวลาคนทั่วไปทำ OCR เอกสารมักเป็นเรื่องส่วนตัว: สแกนบัตรประชาชนเพื่อยื่นเรื่องวีซ่า, ใบเสร็จจากคลินิกเอกชน, สลิปเงินเดือนเพื่อยื่นกู้ซื้อบ้าน, สัญญาที่ใครส่งมาเป็น JPG แทน Word เส้นทางที่สั้นที่สุดจากภาพเหล่านั้นไปยัง ข้อความที่อ่านได้ในคลิปบอร์ด มักผ่านเว็บ OCR ฟรีของใครสักคนที่เก็บไฟล์อัปโหลดอย่างเงียบ ๆ "เพื่อปรับปรุงคุณภาพ" เราทดสอบเว็บยอดนิยมหลายเจ้าใน privacy audit ของเครื่องมือแก้ไข PDF แล้วพบรูปแบบเดียวกันใน OCR: อัปโหลดเข้าเซิร์ฟเวอร์, นโยบายเก็บข้อมูลบอก "ไม่กี่ชั่วโมง" แต่แตะดิสก์เดียวกันหลายเดือนหลังจากนั้น, การวิเคราะห์ของบุคคลที่สามได้รับ hash ของรูปไฟล์ เราทำงานเพื่อให้ OCR รันบนเครื่องทั้งหมด เพราะไฟล์ประเภทที่คุณชี้มาที่เครื่องมือนี้คือไฟล์ประเภทที่คุณคงไม่อยากส่งให้เซิร์ฟเวอร์ของใคร

เกิดอะไรกับไฟล์ของคุณ

เปิด DevTools ไปที่แท็บ Network แล้ววางไฟล์ คุณจะเห็นการดาวน์โหลดครั้งเดียวของแกน WASM และโมเดลภาษาไทย (รวมประมาณ 10 MB) ในการใช้งานครั้งแรก หลังจากนั้นไม่มีคำขอใด ๆ ออกไปพร้อมส่วนใดของไฟล์เลย การใช้งานครั้งต่อ ๆ ไปไม่มีคำขอเลย — เครื่องอ่านอยู่ในแคชและหน้าใช้งานออฟไลน์ได้ ข้อความที่อ่านได้อยู่ใน textarea ของเบราว์เซอร์ที่คุณคัดลอกได้หรือดาวน์โหลดเป็น .txt ไม่มีสิ่งใดในนั้นแตะ log ของเรา ไม่ว่าตอนใด

เมื่อใดที่ OCR ฝั่งเซิร์ฟเวอร์เหมาะกว่า

ถ้าคุณประมวลผลใบกำกับภาษี 10,000 ใบต่อคืน เครื่องมือในเบราว์เซอร์เป็นรูปแบบที่ผิด — คุณต้องมีคิวและกองทัพ worker ที่มี GPU ถ้าคุณต้องการ OCR ลายมือที่แม่นยำสูง API คลาวด์ยังดีกว่าโอเพนซอร์ส ถ้าเอกสารของคุณเป็นสาธารณะ — จดหมายเหตุประวัติศาสตร์, สัญญาในโดเมนสาธารณะ, ภาพหน้าจอจากบล็อกของคุณเอง — ไม่มีประโยชน์ด้านความเป็นส่วนตัวและเซิร์ฟเวอร์อาจเร็วกว่า ประเด็นไม่ใช่ว่า OCR บนเครื่องชนะทุกสถานการณ์; แต่สำหรับภาพที่อยู่ในม้วนกล้องของคนคนเดียว สมการพลิกกลับและไม่ควรต้องอาศัยศรัทธาในนโยบายเก็บข้อมูล

ถ้าคุณมี PDF ที่มีชั้นข้อความอยู่แล้ว — PDF ที่สร้างจากดิจิทัลส่วนใหญ่มี — ใช้ pdf-to-txt แทนจะดีกว่า: เร็วกว่าและไม่สูญเสีย เพราะอ่านข้อความที่ฝังอยู่ ไม่ต้องรัน OCR บนหน้าที่เรนเดอร์แล้ว

FAQ

คำถามที่พบบ่อย

รูปของฉันจะถูกส่งไปเซิร์ฟเวอร์ของพวกคุณหรือไม่?

ไม่ รูปเปิดในเบราว์เซอร์ของคุณและประมวลผลที่นั่น เครื่องอ่าน — Tesseract.js — ดาวน์โหลดครั้งเดียว (~10 MB) เก็บแคชในเบราว์เซอร์ และรันในเครื่อง ตรวจสอบได้: เปิด DevTools ไปที่แท็บ Network แล้วลากไฟล์มา; คุณจะไม่เห็นคำขอใดออกไปพร้อมรูปของคุณ

รองรับไฟล์ประเภทใดบ้าง?

JPG, PNG, WebP, HEIC (iPhone) และ PDF หน้าเดียว HEIC ถอดรหัสในเบราว์เซอร์ — ไม่ต้องแปลงแยก PDF หลายหน้า: อ่านได้เฉพาะหน้าแรก; แบ่ง PDF ก่อนด้วย split-pdf ถ้าต้องการทุกหน้า

รองรับภาษาใดบ้าง?

25 ภาษา: อังกฤษ, เยอรมัน, ฝรั่งเศส, สเปน, อิตาลี, โปรตุเกส (ครอบคลุมบราซิลด้วย), โปแลนด์, ดัตช์, เดนมาร์ก, สวีเดน, โรมาเนีย, ฮังการี, เช็ก, ตุรกี, อินโดนีเซีย, เวียดนาม, รัสเซีย, ยูเครน, กรีก, อาหรับ, ไทย, ญี่ปุ่น, เกาหลี, จีนตัวย่อ และจีนตัวเต็ม ตัวเลือกอยู่บนแถบด้านบน; ค่าเริ่มต้นถูกตรวจจับจาก locale ของเบราว์เซอร์และคงอยู่ข้ามเซสชัน

ความแม่นยำเป็นอย่างไร?

บนภาพสแกน 300 DPI ที่สะอาดของข้อความพิมพ์ดีด: 98–99% บนรูปที่คมชัดของหน้ากระดาษพิมพ์หรือใบเสร็จ: 95%+ บนภาพเบลอ แสงน้อย หรือเอียง: 60–80% — ผลลัพธ์ต้องตรวจซ้ำ ผลลัพธ์แต่ละครั้งแสดงคะแนนความมั่นใจให้คุณรู้ว่าตกอยู่ตรงไหนในช่วงนี้

เอกสารที่ผสมภาษาไทยและภาษาอังกฤษล่ะ?

จัดการอัตโนมัติ เลือกภาษาไทยเป็นภาษาหลัก ระบบจะโหลดภาษาอังกฤษเป็นชุดตัวอักษรรองในการอ่านครั้งเดียวกัน — ทำให้ชื่อแบรนด์ (Excel, LINE, PDF), URL และคำเทคนิคภาษาอังกฤษออกมาสะอาดควบคู่กับข้อความภาษาไทย เครื่องหมายเล็ก ๆ + EN ข้างตัวเลือกแสดงเมื่อโหมดผสมนี้ทำงาน ราคาที่จ่ายคือช้าลง ~30% และใช้หน่วยความจำ ~2× เราเปิดไว้เป็นค่าเริ่มต้น เพราะตัวเลือกอีกทาง — การอ่านภาษาเดียวบนเอกสารผสม — คือสิ่งที่ทำให้ชื่อแบรนด์ออกมาเพี้ยน

ใช้กับลายมือได้ไหม?

ไม่ดี Tesseract ฝึกบนข้อความพิมพ์ — ตัวเชื่อม, ใบสั่งยาที่หมอเขียนมือ, บันทึกในสมุด ทำให้สับสน สำหรับลายมือ Microsoft Read API และ Google Cloud Vision ทำได้ดีกว่าอย่างมีนัยสำคัญ แต่ทั้งสองต้องอัปโหลดภาพ

ทำไมการใช้ครั้งแรกถึงช้า?

เพราะเครื่องอ่าน — ประมาณ 10 MB ของ WebAssembly บวกโมเดลภาษา — ต้องดาวน์โหลดเข้าเบราว์เซอร์ของคุณในครั้งแรก หลังจากนั้นเครื่องอ่านอยู่ในแคช และการอ่านเริ่มทันที หน้าเว็บใช้งานออฟไลน์ได้หลังโหลดครั้งแรก

ใช้บนมือถือได้ไหม?

ได้ หน้านี้เป็นหน้าเว็บปกติที่รันในเบราว์เซอร์มือถือสมัยใหม่ทุกตัว บนมือถือเก่ากว่าการรันครั้งแรกจะใช้เวลานานกว่าเพราะต้องดาวน์โหลดเครื่องอ่าน; ครั้งต่อ ๆ ไปเร็ว

ส่วนตาราง เลย์เอาต์หลายคอลัมน์ หรือเอกสารซับซ้อนล่ะ?

ข้อความออกมาตามลำดับการอ่านเป็นสตรีมย่อหน้าแบน — โครงสร้างตารางไม่ถูกรักษาไว้ สำหรับ PDF ที่ต้องการแถวและคอลัมน์เป็นข้อมูล ใช้ pdf-to-excel สำหรับ PDF ที่มีชั้นข้อความอยู่แล้ว (PDF ที่สร้างจากดิจิทัลส่วนใหญ่มี) ใช้ pdf-to-txt — เร็วกว่า ไม่สูญเสีย และไม่ต้องใช้ OCR

ฟรีจริงไหม? มีข้อจำกัดอะไรบ้าง?

ฟรี — ไม่มีบัญชี ไม่มีลายน้ำ ไม่จำกัดจำนวนครั้งส่งออก การประมวลผลรันบนอุปกรณ์ของคุณ จึงไม่มีต้นทุนเซิร์ฟเวอร์ให้กู้คืน ขีดจำกัดเชิงปฏิบัติของขนาดไฟล์: 25 MB ต่อภาพ เพื่อให้เบราว์เซอร์ไม่หมดหน่วยความจำ

แปลงรูปเป็นข้อความ ในเบราว์เซอร์