Εξαγωγή κειμένου από οποιοδήποτε PDF,
στον περιηγητή σας.
Ανακτήστε καθαρή στρώση κειμένου από οποιοδήποτε PDF — οι παράγραφοι διατηρούνται, πολλές σελίδες, UTF-8. Η εξαγωγή εκτελείται μέσα στον περιηγητή σας, οπότε το αρχείο δεν φεύγει ποτέ από τη συσκευή σας.
Επαληθεύστε το μόνοι σας: ανοίξτε τα DevTools → καρτέλα Network → ρίξτε ένα αρχείο. Δείτε ότι δεν γίνεται καμία μεταφόρτωση.
Τρία βήματα. Το PDF σας δεν φεύγει ποτέ από αυτή την καρτέλα.
Ρίξτε το PDF σας
Διαλέξτε το αρχείο από το οποίο θέλετε να εξαγάγετε κείμενο. Φορτώνεται στη μνήμη του περιηγητή, όχι σε διακομιστή.
Διαβάζουμε τη στρώση κειμένου
Το pdf.js διατρέχει κάθε σελίδα, ταξινομεί τα στοιχεία κατά συντεταγμένη Y και αναπαράγει τα διαλείμματα παραγράφων όπου ανήκουν.
Αντιγραφή ή λήψη .txt
Πάρτε καθαρό κείμενο UTF-8. Αντιγράψτε στο πρόχειρο ή αποθηκεύστε ως .txt — εσείς αποφασίζετε.
Όταν θέλετε το κείμενο και όχι το PDF
Οι λόγοι για να εξαγάγετε το κείμενο από ένα PDF περιστρέφονται σχεδόν πάντα γύρω από το ίδιο πράγμα: να φτάσουν οι λέξεις εκεί όπου το PDF δεν εισέρχεται. Θέλετε να επικολλήσετε ένα απόσπασμα σε μήνυμα χωρίς να σέρνετε το PDF ως συνημμένο. Δίνετε ένα μακρύ έγγραφο σε έναν βοηθό AI που δέχεται μόνο απλό κείμενο. Θέλετε να κάνετε grep σε μια αναφορά 200 σελίδων για μια φράση και η αναζήτηση του προγράμματος ανάγνωσης κρύβει κάτι. Μεταφράζετε σύμβαση και το εργαλείο μετάφρασης θέλει την πηγή ως επίπεδο αρχείο. Επιστρέφετε ένα έτοιμα στοιχειοθετημένο χειρόγραφο από PDF σε επεξεργαστή κειμένου. Σε όλες αυτές τις περιπτώσεις εμποδίζει το περίβλημα — οι λέξεις είναι μια χαρά, απλώς είναι παγιδευμένες σε διάταξη που δύσκολα ξανασυναρμολογείται.
Η έξοδος εδώ είναι ακριβώς αυτό: απλό κείμενο, ένα μεγάλο .txt, στην ίδια σειρά που διαβάζεται το PDF. Χωρίς μορφοποίηση, χωρίς γραμματοσειρές, χωρίς εικόνες, χωρίς πίνακες-ως-πίνακες. Η δουλειά είναι να ελευθερώσει τις λέξεις.
Τι κάνει στ' αλήθεια η «εξαγωγή»
Ένα PDF κρατά δύο ειδών «κείμενο». Πραγματικό κείμενο — χαρακτήρες σχεδιασμένοι με γραμματοσειρές που το PDF επισημαίνει ως γράμματα — βρίσκεται σε ένα στρώμα κειμένου. Αυτό το στρώμα το εργαλείο το διαβάζει απευθείας. Το άλλο είδος είναι κείμενο που υπάρχει μόνο ως pixels: οτιδήποτε σαρωμένο, φωτογραφημένο ή στιγμιότυπο πριν μπει στο PDF. Αυτοί οι χαρακτήρες είναι εικόνες γραμμάτων, όχι γράμματα, και κανείς εξαγωγέας δεν τους βλέπει ως κείμενο χωρίς OCR. Δεν υπάρχει βήμα OCR εδώ.
Δύο γρήγοροι έλεγχοι σας λένε τι είδους PDF έχετε. Ανοίξτε το σε όποιο πρόγραμμα ανάγνωσης, κάντε κλικ και σύρετε πάνω σε μια παράγραφο: αν το κείμενο επισημαίνεται καθαρά, υπάρχει στρώμα κειμένου και η εξαγωγή θα δουλέψει. Αν ο δείκτης σχεδιάζει ορθογώνιο και τίποτα δεν επισημαίνεται, η σελίδα είναι εικόνα και πρέπει πρώτα να περάσει από OCR (σε άλλο εργαλείο) για να έχει ο εξαγωγέας τι να διαβάσει.
Πώς βγαίνουν αλλαγές γραμμής και παράγραφοι
Τα PDF δεν αποθηκεύουν παραγράφους. Εσωτερικά, μια σελίδα είναι ένας σάκος θραυσμάτων κειμένου με θέσεις — κανένα μεταδεδομένο που να λέει «εδώ τελειώνει η παράγραφος». Ευανάγνωστο απλό κείμενο χωρίς αλλαγές δεν υπάρχει, οπότε το εργαλείο τις συνάγει από τα κατακόρυφα κενά: μικρό κενό μεταξύ γραμμών γίνεται μία αλλαγή γραμμής, μεγαλύτερο κενό (αυτό που οι σχεδιαστές αφήνουν μεταξύ παραγράφων) γίνεται κενή γραμμή. Οι συνηθισμένες περιπτώσεις βγαίνουν σωστά: σώμα κειμένου, επικεφαλίδες, λίστες. Όταν ο σχεδιαστής έχει χρησιμοποιήσει ασυνήθιστα διαστήματα για άλλους λόγους, το εργαλείο δεν μπορεί να μαντέψει και τα σημεία αυτά μπορεί να χρειαστούν ελαφρά παρέμβαση.
Στην έξοδο οι σελίδες χωρίζονται με κενή γραμμή. Αν δεν θέλετε καθόλου διαχωριστικά σελίδων, ένα εύρεση-και-αντικατάσταση της διπλής αλλαγής με μία απλή τα αφαιρεί.
Τι δεν επιβιώνει την εξαγωγή
- Έντονα, πλάγια, γραμματοσειρές, χρώμα, στοίχιση. Το απλό κείμενο είναι επίπεδο. Αν χρειάζεται να διατηρηθεί η μορφοποίηση, δείτε pdf-to-word.
- Πίνακες. Τα κελιά γίνονται απλό κείμενο σε σειρά ανάγνωσης — συνήθως γραμμή προς γραμμή, συχνά με αδέξια αποστάσεις. Πίνακες που πρέπει να μείνουν πίνακες ανήκουν στο pdf-to-excel.
- Εικόνες και διαγράμματα. Ό,τι στο PDF δεν ήταν κείμενο δεν εμφανίζεται στο κείμενο. Για να εξαγάγετε εικόνες χωριστά, δείτε pdf-to-jpg.
- Κεφαλίδες και υποσέλιδα. Αν το πρωτότυπο επαναλάμβανε «Εμπιστευτικό — σελίδα X από Y» σε κάθε σελίδα, το εξαχθέν κείμενο θα κάνει το ίδιο. Ένα εύρεση-και-αντικατάσταση τα αφαιρεί σε δευτερόλεπτα.
- Λέξεις σπασμένες με ενωτικό σε αλλαγή γραμμής. Λέξη σπασμένη με ενωτικό βγαίνει ως
κά-\nτιαντίκάτι. Αν αυτό μετράει για επόμενη αναζήτηση ή ορθογραφικό έλεγχο, ένα regex-\n→ κενό φτιάχνει. - Διατάξεις πολλαπλών στηλών μπορεί να μπερδευτούν. Επιστημονικό άρθρο δύο στηλών μπορεί να βγει με προτάσεις από αριστερή και δεξιά στήλη να εναλλάσσονται. Έγγραφα μονής στήλης — οι περισσότερες αναφορές, συμβάσεις, βιβλία — δεν επηρεάζονται. Όταν ένα μπερδεμένο αποτέλεσμα είναι άχρηστο, καθαρότερο είναι να ανοίξετε το PDF σε εργαλείο που σέβεται τη σειρά στηλών πριν εξαγάγετε ξανά.
Λίγες πρακτικές σημειώσεις
- Αν το PDF προστατεύεται με κωδικό, περάστε το πρώτα από το unlock-pdf. Τα κρυπτογραφημένα PDF δεν ανοίγουν για εξαγωγή κειμένου.
- Για πολύ μεγάλα PDF (εκατοντάδες MB, χιλιάδες σελίδες) η εξαγωγή τρέχει επίσης στον φυλλομετρητή σας. Σε υπολογιστή είναι σπάνια πρόβλημα· σε τηλέφωνο με σάρωση 500 σελίδων, η μνήμη του φυλλομετρητή είναι το ταβάνι. Σε αυτή την περίπτωση: υπολογιστής.
- Η έξοδος είναι UTF-8. Κυριλλικά, ελληνικά, αραβικά, κινεζικά, λατινικά με διακριτικά περνούν καθαρά εφόσον το PDF τα αποθήκευσε ως πραγματικό κείμενο. PDF που σχεδίαζαν μη-λατινικούς χαρακτήρες ως ενσωματωμένα subset glyphs χωρίς σωστή κωδικοποίηση παράγουν σκουπίδια στην εξαγωγή — αυτό είναι πρόβλημα του ίδιου του PDF, όχι του εξαγωγέα. Η λύση στην πηγή: επανεξαγωγή με σωστή κωδικοποίηση Unicode.
- Πρότυπο ονόματος. Αρχείο
contract.pdfκατεβαίνει ωςcontract.txt. Το PDF στον δίσκο μένει στη θέση του.
Τι συμβαίνει με το αρχείο σας
Η εξαγωγή τρέχει στον φυλλομετρητή σας. Ανοίξτε τα DevTools και παρακολουθήστε την καρτέλα Network κατά τη διάρκεια — κανένα εξερχόμενο αίτημα με περιεχόμενο αρχείου. Το PDF μένει στον δίσκο· το .txt είναι μια νέα λήψη δίπλα.
Συχνές ερωτήσεις
Πώς λειτουργεί η εξαγωγή;
Χρησιμοποιούμε το pdf.js της Mozilla για να διαβάσουμε την ενσωματωμένη στρώση κειμένου του PDF σας σελίδα-σελίδα. Τα στοιχεία ομαδοποιούνται κατά συντεταγμένη Y ώστε να διατηρηθούν τα διαλείμματα παραγράφων — χωρίς διακομιστή, χωρίς ανέβασμα.
Λειτουργεί σε σαρωμένα PDF;
Όχι. Οι σαρώσεις είναι εικόνες κειμένου, όχι κείμενο — η εξαγωγή τους απαιτεί OCR, το οποίο δεν εκτελεί αυτό το εργαλείο. Αν το PDF σας προέρχεται από σάρωση χαρτιού, χρειάζεστε πρώτα εργαλείο OCR.
Ανεβαίνει το αρχείο μου κάπου;
Ποτέ. Η εξαγωγή εκτελείται εξ ολοκλήρου στον περιηγητή σας μέσω WebAssembly — επαληθεύσιμο στα DevTools → Network. Το αρχείο μένει στη συσκευή σας.
Τι γίνεται με PDF προστατευμένα με κωδικό;
Ξεκλειδώστε το PDF πρώτα με το εργαλείο μας Ξεκλείδωμα PDF και μετά κάντε εξαγωγή. Οι κρυπτογραφημένες ροές περιεχομένου δεν αναλύονται χωρίς τον κωδικό.
Ποιο είναι το όριο μεγέθους αρχείου;
Έως 100 MB. Μεγαλύτερα μπορεί να εξαντλήσουν τη μνήμη του περιηγητή — δοκιμάστε να τα διαχωρίσετε πρώτα με το Διαχωρισμός PDF.