PDF'den Metne

Herhangi bir PDF'den metin çıkarın,
tarayıcınızda.

Herhangi bir PDF'den temiz bir metin katmanı alın — paragraflar korunur, çok sayfa, UTF-8. Çıkarma tarayıcınızda çalışır, böylece dosya cihazınızdan asla ayrılmaz.

Metin çıkarmak istediğiniz PDF'yi bırakın
Gömülü metin katmanını pdf.js ile okuyoruz — OCR yok, sunucu yok.

Kendiniz doğrulayın: DevTools’u açın → Network sekmesi → bir dosya bırakın. Hiçbir yüklemenin gerçekleşmediğini görün.

Çok sayfa · UTF-8 çıktı Taranmış PDF'ler OCR gerektirir — bu araç yalnızca metin katmanını okur
Ücretsiz
Kayıt yok
Yükleme yok
UTF-8 çıktı
NASIL ÇALIŞIR

Üç adım. PDF'iniz bu sekmeden asla ayrılmaz.

1

PDF'inizi bırakın

Metin çıkarmak istediğiniz dosyayı seçin. Sunucuya değil, tarayıcının belleğine yüklenir.

2

Metin katmanını okuyoruz

pdf.js her sayfayı dolaşır, öğeleri Y-koordinatına göre sıralar ve paragraf sonlarını ait oldukları yerde yeniden oluşturur.

3

.txt kopyalayın veya indirin

Temiz UTF-8 düz metin alın. Panoya kopyalayın veya .txt olarak kaydedin — siz karar verin.

PDF değil, metin gerektiğinde

PDF'den metin çıkarmanın gerekçeleri neredeyse hep aynı şey etrafında döner: sözcükleri PDF'in giremediği yere taşımak. Bir alıntıyı PDF'i ek olarak sürüklemeden e-postaya yapıştırmak istiyorsunuz. Sadece düz metin alan bir AI asistanına uzun bir belge veriyorsunuz. 200 sayfalık bir raporda bir cümleyi grep'lemek istiyorsunuz, ama okuyucunun araması bir şey saklıyor. Bir sözleşme çeviriyorsunuz ve çeviri aracı kaynak olarak düz dosya istiyor. Tamamlanmış mizanpajlı bir taslağı PDF'ten metin editörüne geri taşıyorsunuz. Tüm bu durumlarda yolda duran ambalaj — sözcükler tamam, sadece bir mizanpajın içine sıkışmışlar ve onu yeniden kurmak güç.

Buradaki çıktı tam olarak budur: düz metin, tek bir büyük .txt dosyası, PDF'in okunduğu sırada. Biçimlendirme yok, yazı tipi yok, görsel yok, tablo-olarak-tablo yok. İş, sözcükleri serbest bırakmak.

«Çıkarma» aslında ne yapar

PDF iki tür «metin» tutar. Gerçek metin — yazı tipleriyle çizilen ve PDF'in harf olarak işaretlediği karakterler — bir metin katmanında bulunur. Araç bu katmanı doğrudan okur. Diğer tür yalnızca piksel olarak var olan metindir: PDF'e konmadan önce taranan, fotoğraflanan veya ekran görüntüsü alınan her şey. Bu karakterler harflerin görüntüleridir, harf değil; OCR olmadan hiçbir çıkarıcı bunları metin olarak göremez. Burada OCR adımı yok.

İki hızlı kontrol elinizde nasıl bir PDF olduğunu söyler. Herhangi bir okuyucuda açın, bir paragrafın üzerinden tıklayıp sürükleyin: metin temizce seçiliyorsa metin katmanı vardır ve çıkarma çalışır. İmleç dikdörtgen çiziyor ve hiçbir şey seçilmiyorsa sayfa bir görüntüdür ve önce OCR'dan (başka bir araçta) geçirilmesi gerekir; ancak ondan sonra çıkarıcının okuyacak bir şeyi olur.

Satır kesmeleri ve paragraflar nasıl çıkar

PDF paragraf saklamaz. İçeride bir sayfa, konumlu metin parçacıklarından oluşan bir torbadır — «paragraf burada bitiyor» diyen bir meta veri yok. Anlamlı düz metin satır sonları olmadan olmaz, bu yüzden araç onları dikey boşluklardan çıkarır: satırlar arası küçük boşluk tek satır kesmesine dönüşür, daha büyük boşluk (tasarımcıların paragraflar arasında bıraktığı türden) boş satıra. Sıradan durumlar yerine oturur: gövde metni, başlıklar, listeler. Tasarımcı sıra dışı boşlukları başka bir şey için kullandıysa araç tahmin edemez ve o noktalar hafif elle düzeltme isteyebilir.

Çıktıda sayfalar boş satırla ayrılır. Sayfa ayraçları hiç istemiyorsanız, çift satır kesmesini tek satır kesmesiyle değiştiren bir bul-değiştir bunları kaldırır.

Çıkarmadan sağ çıkmayanlar

  • Kalın, italik, yazı tipi, renk, hizalama. Düz metin düzdür. Biçimlendirmeyi korumak gerekiyorsa pdf-to-word'e bakın.
  • Tablolar. Hücreler okuma sırasında düz metne dönüşür — genellikle satır satır, çoğu zaman beceriksiz boşluklarla. Tablo olarak kalmaları gereken tablolar pdf-to-excel'e aittir.
  • Görseller ve diyagramlar. PDF'te metin olmayan hiçbir şey metne çıkmaz. Görselleri ayrı çekmek için pdf-to-jpg'a bakın.
  • Üst ve alt bilgiler. Orijinal her sayfada «Gizli — sayfa X / Y» tekrarlıyorsa çıkarılan metin de aynısını yapar. Bul-değiştir saniyeler içinde temizler.
  • Satır sonunda tireyle bölünen sözcükler. Tireyle kırılan sözcük bir-\nşey şeklinde çıkar, birşey değil. Bu sonraki arama veya yazım denetimi için önemliyse -\n → boş regex'i bunu giderir.
  • Çok sütunlu mizanpajlar iç içe geçebilir. İki sütunlu bir akademik makale sol ve sağ sütun cümlelerinin sıralanmasıyla çıkabilir. Tek sütunlu belgeler — raporların, sözleşmelerin, kitapların çoğu — bundan etkilenmez. Karışık sonuç kullanılamaz hâle gelirse, sütun sırasına saygı duyan bir araçta PDF'i açıp tekrar çıkarmak daha temizdir.

Birkaç pratik not

  1. PDF parolalıysa önce unlock-pdf'ten geçirin. Şifreli PDF'ler metin çıkarımı için açılamaz.
  2. Çok büyük PDF'ler için (yüzlerce MB, binlerce sayfa) çıkarma yine de tarayıcınızda çalışır. Masaüstünde nadiren sorun; 500 sayfalık bir taramayla telefon kullanırken tarayıcı belleği tavandır. O durumda masaüstüne geçin.
  3. Çıktı UTF-8'dir. Kiril, Yunan, Arap, Çin, aksanlı Latin karakterler PDF gerçek metin olarak depoladıysa temiz geçer. Latin olmayan karakterleri doğru kodlama olmadan gömülü subset glif olarak çizen PDF'ler çıkarımda çöp üretir — bu PDF'in kendi sorunudur, çıkarıcının değil. Çözüm kaynak tarafında: doğru Unicode kodlamasıyla yeniden dışa aktarmak.
  4. Dosya adı kalıbı. contract.pdf dosyası contract.txt olarak indirilir. Diskteki PDF yerinde kalır.

Dosyanıza ne olur

Çıkarma tarayıcınızda çalışır. DevTools'u açın ve işlem sırasında Network sekmesini izleyin — dosya içeriği taşıyan giden istek yok. PDF diskte kalır; .txt yanında yeni bir indirmedir.

SSS

Sıkça sorulanlar

Çıkarma nasıl çalışır?

PDF'inizin gömülü metin katmanını sayfa sayfa okumak için Mozilla'nın pdf.js'sini kullanıyoruz. Öğeler Y-koordinatına göre gruplanır, böylece paragraf sonları korunur — sunucu yok, yükleme yok.

Taranmış PDF'lerde çalışır mı?

Hayır. Taramalar metnin görüntüleridir, metin değil — çıkarmak için OCR gerekir, bu araç OCR çalıştırmaz. PDF'iniz taranmış kâğıttan oluşturulduysa önce bir OCR aracına ihtiyacınız var.

Dosyam herhangi bir yere yükleniyor mu?

Asla. Çıkarma tamamen tarayıcınızda WebAssembly üzerinden çalışır — DevTools → Ağ sekmesinden doğrulanabilir. Dosya cihazınızda kalır.

Parolayla korunan PDF'ler ne olacak?

PDF'i önce PDF Kilidini Aç aracımızla açın, sonra metni çıkarın. Şifrelenmiş içerik akışları parola olmadan ayrıştırılamaz.

Dosya boyutu sınırı nedir?

100 MB'a kadar. Daha büyük dosyalar tarayıcı belleğini tüketebilir — önce PDF Böl aracıyla bölmeyi deneyin.