PDF σε Excel
Online
Εξαγάγετε πίνακες από PDF σε επεξεργάσιμα βιβλία Excel. Ο εντοπισμός και η ανάλυση γίνονται εξ ολοκλήρου στον browser.
Επαληθεύστε το μόνοι σας: ανοίξτε τα DevTools → καρτέλα Network → ρίξτε ένα αρχείο. Δείτε ότι δεν γίνεται καμία μεταφόρτωση.
Τρία βήματα. Μηδέν uploads.
Αποθέστε το PDF
Φόρτωση στη μνήμη του browser.
Εντοπισμός πινάκων
Βρίσκουμε τα όρια των πινάκων και αναλύουμε τα κελιά στον browser.
Κατεβάστε το XLSX
Ανοίξτε σε Excel, Numbers ή Google Sheets.
Όταν ο πίνακας κάθεται σε ένα PDF και πρέπει να ξαναγίνει πίνακας
Οι αφορμές προκύπτουν συνήθως μετά την επιλογή μορφής κάποιου άλλου. Η τράπεζα στέλνει το αντίγραφο ως PDF και θες να ρίξεις τις συναλλαγές σε φύλλο εργασίας για να αθροίσεις μια κατηγορία. Η τιμοκατάλογος του προμηθευτή ήρθε σε PDF και θες να την συγκρίνεις με το προηγούμενο τρίμηνο. Ένας ρυθμιστικός φορέας δημοσιεύει πίνακες δεδομένων μόνο σε PDF και τους χρειάζεσαι ως κελιά για να ταξινομήσεις και να φιλτράρεις. Μια αναφορά αποκομμένη με scraping είναι σε PDF και θες κάθε γραμμή ως γραμμή. Σε όλες αυτές τις περιπτώσεις οι αριθμοί υπάρχουν· απλώς δεν συμπεριφέρονται ως αριθμοί επειδή είναι παγιδευμένοι σε διάταξη.
Η δουλειά εδώ είναι να ανακτηθούν γραμμές και στήλες: παίρνεις το PDF, επιστρέφεται ένα .xlsx όπου κάθε σελίδα είναι δικό της φύλλο, κάθε γραμμή είναι γραμμή και κάθε στήλη είναι στήλη. Από εκεί μπορείς να ταξινομείς, να φιλτράρεις, να αθροίζεις, να φτιάχνεις συγκεντρωτικούς πίνακες — γι' αυτό υπάρχουν τα φύλλα εργασίας.
Γιατί αυτό είναι μια εικασία — και μάλιστα αρκετά καλή
Τα PDF δεν αποθηκεύουν πίνακες. Εσωτερικά μια σελίδα είναι μια επίπεδη ροή θραυσμάτων κειμένου με θέσεις x/y στον καμβά. Πουθενά δεν λέει «αυτή είναι γραμμή» ή «εδώ ξεκινά στήλη» — αυτές οι δομές υπάρχουν μόνο στο μάτι σου όταν διαβάζεις. Το να τις ανακτήσεις σημαίνει να συναγάγεις το πλέγμα από εκεί όπου το κείμενο όντως κάθεται.
Το εργαλείο το κάνει σε λίγα στάδια. Πρώτα ομαδοποιεί τα θραύσματα σε γραμμές με βάση το y: αν δύο θραύσματα είναι κατακόρυφα μέσα σε περίπου μισό ύψος γραμμής, ανήκουν στην ίδια γραμμή. Στη συνέχεια, εντός γραμμής, θραύσματα κοντά οριζόντια συνενώνονται σε ένα κελί (συνήθης απόσταση γραμμάτων), ενώ μεγαλύτερα κενά γίνονται όρια κελιών (διάδρομοι μεταξύ στηλών). Τέλος, κοιτά πού ξεκινούν τα κελιά κατά μήκος όλης της σελίδας, εντοπίζει τις κυρίαρχες x-θέσεις και τις θεωρεί κέντρα στηλών — κάθε κελί πάει στο πλησιέστερο. Έτσι προκύπτει το ορθογώνιο πλέγμα που ζητά το φύλλο εργασίας.
Τι κάνει σωστά ο αλγόριθμος
- Κλασικοί οικονομικοί πίνακες — αντίγραφα τραπέζης, τιμολόγια, τιμοκατάλογοι, καταστάσεις εξόδων. Μία γραμμή ανά εγγραφή, καθαροί διάδρομοι μεταξύ στηλών, δεξιά ευθυγραμμισμένοι αριθμοί: ακριβώς η περίπτωση για την οποία είναι ρυθμισμένη η ευρετική, και συνήθως περνά καθαρά.
- Καταχωρήσεις μίας γραμμής. Όταν κάθε εγγραφή χωρά σε μία γραμμή, η ανίχνευση γραμμών είναι αξιόπιστη.
- Πίνακες σε όλο το πλάτος της σελίδας. Η ανίχνευση στηλών δουλεύει καλύτερα όταν οι στήλες είναι καλά κατανεμημένες και σταθερές κατά μήκος της σελίδας.
- Δεξιά και αριστερή στοίχιση. Το εργαλείο χειρίζεται και τα δύο — αυτό που μετράει είναι ένας αναγνωρίσιμος διάδρομος μεταξύ στηλών.
Πού δυσκολεύεται
- Κελιά με αλλαγή γραμμής. Ένα κελί του οποίου η τιμή πηγαίνει σε δεύτερη γραμμή — εκτενής περιγραφή προϊόντος, διεύθυνση πολλών γραμμών — συνήθως σπάει σε δύο γραμμές. Διορθώνεται με ελαφρύ χειροκίνητο καθάρισμα στο φύλλο (ή καλύτερα pdf-to-txt και ξανακατασκευή του πίνακα με το χέρι, αν η διόρθωση δεν αξίζει τον κόπο).
- Συγχωνευμένα κελιά. Μια κεφαλίδα που οπτικά καλύπτει δύο στήλες εμφανίζεται μόνο σε μία — την πλησιέστερη. Τη συγχώνευση τη βλέπεις ως τιμή στη στήλη A και κενό στη B.
- Δύο πίνακες δίπλα-δίπλα. Ο ανιχνευτής στηλών τους βλέπει μαζί και μπορεί να τους ισοπεδώσει σε έναν φαρδύ πίνακα. Η προηγούμενη κοπή του PDF στη μέση βοηθά.
- Τρέχον κείμενο στην ίδια σελίδα με πίνακα. Μια παράγραφος πάνω από τον πίνακα συνεισφέρει δικές της «γραμμές» κειμένου — μερικές γραμμές που δεν είναι πραγματικές, εύκολα διαγράφονται.
- Πίνακες πολλών σελίδων. Κάθε σελίδα γίνεται ξεχωριστό φύλλο. Για να τους συρράψεις σε έναν συνεχόμενο πίνακα, αντιγράφεις και επικολλάς τα τμήματα δεδομένων μετά την εξαγωγή.
- Σαρωμένα PDF. Ο ίδιος περιορισμός με κάθε εξαγωγή κειμένου: αν η σελίδα είναι εικόνα (σαρωμένο αντίγραφο, φωτογραφημένη απόδειξη), δεν υπάρχει τι να διαβαστεί. Πρώτα OCR σε άλλο εργαλείο.
Τι παίρνεις στο τέλος
Ένα αρχείο .xlsx. Κάθε σελίδα του PDF γίνεται δικό της φύλλο με όνομα Page 1, Page 2 κ.λπ. Ανοίγει σε Excel, Numbers, Google Sheets, LibreOffice — σε οποιοδήποτε. Τα κελιά είναι σκέτες τιμές· χωρίς μορφοποίηση, τύπους, στυλ. Το νόημα είναι ότι οι αριθμοί είναι πλέον αριθμοί και οι στήλες είναι στήλες.
Αν προτιμάς CSV αντί xlsx, αποθήκευσε το φύλλο ως CSV από την εφαρμογή υπολογιστικών φύλλων που χρησιμοποιείς — είναι ένα μενού μακριά.
Πρακτικές σημειώσεις
- Αν το PDF έχει κωδικό, πέρασέ το πρώτα από το unlock-pdf. Τα κρυπτογραφημένα PDF δεν ανοίγουν για εξαγωγή κελιών.
- Σε πολύ φαρδείς πίνακες βοηθά η περιστροφή του PDF-πηγής σε οριζόντιο πριν την εξαγωγή — λιγότερες στήλες, καθαρότεροι διάδρομοι. Η περιστροφή γίνεται στο edit-pdf.
- Αν χρειάζεσαι μόνο το κείμενο χωρίς δομή, το pdf-to-txt είναι πιο γρήγορο και το αποτέλεσμα ανασυντίθεται πιο εύκολα.
- Η αντίστροφη πράξη — να βάλεις φύλλο Excel μέσα σε PDF — είναι το excel-to-pdf.
Τι συμβαίνει με το αρχείο σου
Η εξαγωγή τρέχει στον φυλλομετρητή σου. Άνοιξε τα DevTools και παρακολούθησε την καρτέλα Network κατά τη λειτουργία — κανένα εξερχόμενο αίτημα με περιεχόμενο αρχείου. Το PDF μένει στον δίσκο· το .xlsx είναι μια νέα λήψη δίπλα.
Συχνές ερωτήσεις
Ανεβαίνει το PDF μου;
Όχι. Εντοπισμός και ανάλυση γίνονται εξ ολοκλήρου στον browser. Το αρχείο δεν φεύγει από τη συσκευή.
Λειτουργεί σε σαρωμένα PDF (OCR);
Οι σαρωμένοι πίνακες χρειάζονται OCR για να γίνουν επεξεργάσιμα κελιά. Τα PDF με κείμενο (επιλέξιμο) εξάγονται απευθείας.
Πόσο ακριβής είναι ο εντοπισμός;
Πίνακες με γραμμές και καλά διαχωρισμένα πλέγματα εξάγονται καθαρά. Συγχωνευμένα κελιά και πίνακες χωρίς περιγράμματα μπορεί να χρειαστούν χειροκίνητο έλεγχο.
Μπορώ να επιλέξω συγκεκριμένες σελίδες;
Ναι. Ορίστε εύρος σελίδων για εξαγωγή μόνο από όσες χρειάζεστε.