PDF Excel
Çevirme
PDF'lerden düzenlenebilir Excel çalışma kitaplarına tablo çıkarın. Algılama ve ayrıştırma tamamen tarayıcınızda yapılır.
Kendiniz doğrulayın: DevTools’u açın → Network sekmesi → bir dosya bırakın. Hiçbir yüklemenin gerçekleşmediğini görün.
Üç adım. Sıfır yükleme.
PDF'i bırakın
Tarayıcı belleğine yüklenir.
Tabloları algıla
Tablo sınırlarını bulur, hücreleri istemci tarafında ayrıştırırız.
XLSX'i indir
Excel, Numbers veya Google Sheets'te açın.
Tablo PDF'in içinde, ama yine tablo olmalı
Vesileler genellikle başkasının format tercihi peşinden geliyor. Banka ekstreyi PDF olarak yolluyor, siz işlemleri elektronik tabloya dökmek ve bir kategoriyi toplamak istiyorsunuz. Tedarikçinin fiyat listesi PDF'te geldi, geçen çeyrekle karşılaştırmak istiyorsunuz. Düzenleyici kuruluş veri tablolarını yalnızca PDF olarak yayımlıyor, sizin sıralayıp süzmek için bunlara hücre olarak ihtiyacınız var. Scrape edilen bir rapor PDF'te ve her satırı satır olarak görmek istiyorsunuz. Bütün bu durumlarda sayılar mevcut; sadece bir mizanpaja kilitlendikleri için sayı gibi davranmıyorlar.
Buradaki iş, satırları ve sütunları geri kazanmak: PDF'i alın, her sayfası ayrı bir çalışma sayfası, her satırı satır, her sütunu sütun olan bir .xlsx alın. Sonrası sıralama, süzme, toplama, özet tablolar — elektronik tablonun yapma sebebi.
Bu neden bir tahmin — ve oldukça iyi bir tahmin
PDF tablo saklamaz. İçeride bir sayfa, tuvalde x/y konumlarına sahip metin parçacıklarının düz bir akışıdır. Hiçbir yerde «bu bir satırdır» veya «sütun burada başlar» yazmaz — bu yapılar yalnızca okurken sizin gözünüzde vardır. Onları geri getirmek, ızgaraları metnin gerçekte oturduğu yerden çıkarmak demektir.
Araç bunu birkaç adımda yapar. Önce metin parçacıklarını y'ye göre satırlara gruplar: iki parçacık dikeyde yaklaşık yarım satır yüksekliği içindeyse aynı satıra aittir. Sonra satır içinde, yatayda yakın duran parçacıklar tek hücreye birleştirilir (olağan harf aralığı), daha geniş boşluklar hücre sınırı olur (sütunlar arası koridorlar). Son olarak sayfa boyunca hücrelerin nereden başladığına bakar, baskın x konumlarını bulur ve onları sütun merkezi sayar — her hücre en yakın sütuna gider. Elektronik tablonun istediği dikdörtgen ızgara böylece çıkar.
Algoritmanın iyi yakaladığı durumlar
- Klasik finansal tablolar — banka ekstreleri, faturalar, fiyat listeleri, masraf raporları. Kayıt başına bir satır, sütunlar arasında net koridorlar, sağa hizalı sayılar: heuristic'in tam olarak ayarlandığı durum, genellikle temiz geçer.
- Tek satırlık kayıtlar. Her kayıt bir satıra sığdığında satır algılama güvenilirdir.
- Tüm sayfa genişliğinde tablolar. Sütun algılama, sütunların iyi aralıklı ve sayfa boyunca tutarlı olduğunda en iyi çalışır.
- Sağa ve sola hizalama. Araç ikisini de kabul eder — önemli olan sütunlar arasında belirgin bir koridor.
Zorlandığı yerler
- Satıra kayan hücreler. Değeri ikinci satıra taşan bir hücre — uzun ürün açıklaması, çok satırlı adres — genellikle iki satıra bölünür. Çözüm, tabloyu hafif elden geçirmek (veya düzeltme zahmete değmiyorsa pdf-to-txt'ten geçirip tabloyu elle yeniden kurmak).
- Birleştirilmiş hücreler. Görsel olarak iki sütunu kapsayan bir başlık yalnızca birinde — en yakın olanda — görünür. Birleştirmeyi A'da değer, B'de boş olarak görürsünüz.
- Yan yana iki tablo. Sütun dedektörü ikisini birden görür ve tek geniş tabloya ezebilir. PDF'i önceden ikiye bölmek yardımcı olur.
- Bir tabloyla aynı sayfada akan metin. Tablonun üzerindeki paragraf kendi «satırlarını» katar — gerçekte satır olmayan birkaç satır, kolayca silinir.
- Çok sayfalı tablolar. Her sayfa ayrı bir çalışma sayfası olur. Bunları sürekli bir tabloya dikmek için çıkarımdan sonra veri bölümlerini kopyalayıp yapıştırın.
- Taranmış PDF'ler. Her metin çıkarımındaki uyarının aynısı: sayfa görüntüyse (taranmış ekstre, fotoğraflanmış makbuz), okunacak bir şey yok. Önce başka bir araçta OCR.
Sonunda ne alırsınız
Bir .xlsx dosyası. Her PDF sayfası Page 1, Page 2 vb. adlı kendi çalışma sayfası olur. Excel, Numbers, Google Sheets, LibreOffice'in herhangi birinde açılır. Hücreler düz değerlerdir; biçimlendirme, formül, stil yok. Önemli olan sayıların artık sayı, sütunların artık sütun olması.
xlsx yerine CSV isterseniz çalışma sayfasını uygulamanızdan CSV olarak kaydedin — bir menü uzaklıkta.
Pratik notlar
- PDF parolalıysa önce unlock-pdf'ten geçirin. Şifreli PDF'ler hücre çıkarımı için açılamaz.
- Çok geniş tablolar için kaynak PDF'i çıkarmadan önce yatay yöne döndürmek yardımcı olur — daha az sütun, daha temiz koridorlar. Döndürme edit-pdf'te.
- Yapı olmadan yalnızca metin gerekiyorsa pdf-to-txt daha hızlıdır ve sonucu yeniden düzenlemek daha kolaydır.
- Ters işlem — Excel sayfasını PDF'e koymak — excel-to-pdf.
Dosyanıza ne olur
Çıkarma tarayıcınızda çalışır. DevTools'u açın ve işlem sırasında Network sekmesini izleyin — dosya içeriği taşıyan giden istek yok. PDF diskte kalır; .xlsx yanında yeni bir indirmedir.
Sık sorulanlar
PDF'im yükleniyor mu?
Hayır. Algılama ve ayrıştırma tamamen tarayıcınızda yapılır. Dosya cihazdan çıkmaz.
Taranmış PDF'lerde çalışır mı (OCR)?
Taranmış tabloların düzenlenebilir hücrelere dönüşmesi için OCR gerekir. Metin tabanlı PDF'ler (seçilebilir metin) doğrudan çıkarılır.
Tablo algılama ne kadar doğru?
Çizgili tablolar ve iyi aralıklı ızgaralar temiz çıkar. Birleştirilmiş hücreler ve kenarlıksız tablolar el ile gözden geçirme gerektirebilir.
Belirli sayfaları seçebilir miyim?
Evet. Bir sayfa aralığı seçin ve yalnızca ihtiyacınız olan sayfalardan tablo çıkarın.