استخرج النص من أي PDF،
داخل متصفحك.
اسحب طبقة نصية نظيفة من أي PDF — مع الحفاظ على الفقرات، ودعم متعدد الصفحات، وترميز UTF-8. الاستخراج يجري داخل متصفحك، فالملف لا يغادر جهازك أبداً.
تحقق بنفسك: افتح DevTools → علامة التبويب Network → أفلت ملفًا. شاهد كيف لا يحدث أي رفع.
ثلاث خطوات. ملفك لا يغادر علامة التبويب.
أسقط ملف PDF
اختر الملف الذي تريد استخراج النص منه. يُحمَّل في ذاكرة متصفحك، لا على خادم.
نقرأ طبقة النص
يمر pdf.js على كل صفحة، ويرتب العناصر حسب الإحداثي Y، ويعيد بناء فواصل الفقرات في مكانها الصحيح.
انسخ أو نزّل .txt
احصل على نص عادي UTF-8 نظيف. انسخه إلى الحافظة أو احفظه كملف .txt — القرار لك.
عندما تريد النصَّ لا الـPDF
الأسباب التي تدفعك لاستخراج النصِّ من PDF تدور دائمًا حول الشيء نفسه: إيصال الكلمات إلى مكان لا يدخله الـPDF. تريد لصق اقتباس في رسالة بريد دون أن تجرَّ ملفَّ PDF كمرفق. تُغذِّي وثيقة طويلة لمساعد ذكاء اصطناعي لا يقبل سوى نصٍّ خالص. تريد إجراء grep على تقرير من 200 صفحة بحثًا عن عبارة، فيخفي بحث القارئ شيئًا. تترجم عقدًا، وتطلب أداة الترجمة المصدر بصيغة ملف مسطَّح. تنقل مخطوطًا منسَّقًا من PDF إلى محرِّر نصوص. في كل هذه الحالات، الذي يقف في الطريق هو الغلاف — الكلمات بخير، لكنها عالقة في تنضيد يصعب جمعه من جديد.
الناتج هنا هو ذلك بالضبط: نصٌّ خالص، ملفٌّ .txt واحد كبير، بنفس ترتيب قراءة الـPDF. بلا تنسيق، بلا خطوط، بلا صور، بلا جداول-كجداول. المهمَّة تحرير الكلمات.
ما الذي يفعله «الاستخراج» فعلًا
يحمل الـPDF نوعين من «النص». النص الحقيقي — رموز مرسومة بخطوط ويعلِّمها الـPDF بوصفها حروفًا — موجود في طبقة نص. هذه الطبقة تقرؤها الأداة مباشرةً. النوع الآخر نصٌّ موجود فقط بوصفه بكسلات: كل ما مُسِح ضوئيًّا أو صُوِّر أو أُخذت له لقطة شاشة قبل أن يُوضع في الـPDF. تلك الرموز صور لحروف، لا حروف، ولا يستطيع أيُّ مستخرج رؤيتها كنصٍّ بدون OCR. لا توجد هنا خطوة OCR.
اختباران سريعان يخبرانك أيُّ نوعٍ من PDF بحوزتك. افتحه في أيِّ قارئ، انقر واسحب فوق فقرة: إذا تظلَّل النصُّ بنظافة فثَمَّ طبقة نص وسيعمل الاستخراج. إذا رسم المؤشِّر مستطيلًا ولم يُظَلَّل شيء فالصفحة صورة، ويلزم تمريرها أولًا عبر OCR (في أداة أخرى) كي يجد المستخرج ما يقرؤه.
كيف تخرج فواصل الأسطر والفقرات
لا يخزِّن الـPDF فقرات. في الداخل، الصفحة كيس من شظايا نصٍّ بمواقع — لا توجد بيانات وصفية تقول «هنا تنتهي الفقرة». لا وجود لنصٍّ خالص قابل للقراءة بلا فواصل، فتستنتجها الأداة من المسافات الرأسية: مسافة صغيرة بين السطور تصبح فاصلًا واحدًا، ومسافة أكبر (التي يتركها المصمِّمون بين الفقرات) تصبح سطرًا فارغًا. الحالات المعتادة تخرج صحيحة: المتن، العناوين، القوائم. حين يستخدم المصمِّم مسافات غير معتادة لغرض آخر، لا يستطيع البرنامج التخمين، وقد تحتاج تلك المواضع لمسةً يدوية خفيفة.
تُفصَل الصفحات في الناتج بسطر فارغ. إذا كنت لا تريد فاصلًا للصفحات أصلًا، فإن استبدال السطر الفارغ المضاعف بسطر مفرد عبر «بحث واستبدال» يزيلها.
ما لا ينجو من الاستخراج
- العريض، المائل، الخطوط، اللون، المحاذاة. النصُّ الخالص مسطَّح. إن لزم الإبقاء على التنسيق، انظر pdf-to-word.
- الجداول. تتحوَّل الخلايا إلى نصٍّ خالص بترتيب القراءة — عادةً صفًّا تلو الآخر، وكثيرًا ما بفواصل غير أنيقة. الجداول التي يجب أن تظلَّ جداول مكانها pdf-to-excel.
- الصور والمخطَّطات. ما لم يكن نصًّا في الـPDF لن يظهر في النص. لاستخراج الصور على حِدة، انظر pdf-to-jpg.
- الترويسات والتذييلات. إن كان الأصل يكرِّر «سرِّي — صفحة X من Y» في كل صفحة، فالنصُّ المستخرَج يفعل المثل. «بحث واستبدال» يزيلها في ثوانٍ.
- الكلمات المقطَّعة بشَرطة في نهاية السطر. الكلمة المكسورة بشَرطة تخرج
some-\nthingلاsomething. إن كان ذلك يهمُّ للبحث أو التدقيق الإملائي لاحقًا، فإن تعبيرًا منتظمًا-\n← فراغ يُصلحه. - قد تتشابك التنضيدات متعدِّدة الأعمدة. ورقة بحثية بعمودين قد تخرج بجمل من العمود الأيسر والأيمن متعاقبة. الوثائق ذات العمود الواحد — معظم التقارير والعقود والكتب — لا تتأثَّر. إذا كانت النتيجة المتشابكة غير قابلة للاستعمال، فالأنظف فتح الـPDF في أداة تحترم ترتيب الأعمدة قبل إعادة الاستخراج.
ملاحظات عملية
- إذا كان الـPDF محميًّا بكلمة سر، مرِّره أولًا عبر unlock-pdf. لا يمكن فتح الـPDF المشفَّر لاستخراج النص.
- للملفات الكبيرة جدًّا (مئات الميغابايتات أو آلاف الصفحات) يجري الاستخراج مع ذلك في متصفِّحك. على الحاسوب نادرًا ما تكون مشكلة؛ على هاتف بمسحٍ من 500 صفحة، السقف ذاكرة المتصفِّح. في هذه الحال: على الحاسوب.
- الناتج بصيغة UTF-8. السيريلية، اليونانية، العربية، الصينية، اللاتينية بالحركات تمرُّ نظيفة طالما خزَّنها الـPDF كنصٍّ حقيقي. الـPDF التي رسمت رموزًا غير لاتينية كرسومات subset مضمَّنة دون ترميز صحيح تُنتج خَردةً عند الاستخراج — هذه مشكلة الـPDF نفسه لا المستخرِج. الحل من المصدر: إعادة التصدير بترميز Unicode الصحيح.
- نمط اسم الملف. الملف
contract.pdfيُنزَّل باسمcontract.txt. أمَّا الـPDF على القرص فيبقى مكانه.
ماذا يحدث لملفك
الاستخراج يجري في متصفِّحك. افتح أدوات المطوِّر وراقب علامة التبويب Network أثناء العملية — لا طلبات صادرة تحمل محتوى الملف. يبقى الـPDF على القرص؛ والـ.txt تنزيل جديد بجواره.
أسئلة متكررة
كيف يعمل الاستخراج؟
نستخدم pdf.js من Mozilla لقراءة طبقة النص المضمّنة في ملف PDF صفحة بصفحة. تُجمَّع العناصر حسب إحداثيها Y لتبقى فواصل الفقرات سليمة — بدون خادم، بدون رفع.
هل يعمل على ملفات PDF الممسوحة ضوئياً؟
لا. الملفات الممسوحة هي صور للنص، لا نص — استخراجها يتطلب OCR، وهذه الأداة لا تشغّله. إذا كان ملفك ناتجاً عن مسح ورق، ستحتاج إلى أداة OCR أولاً.
هل يُرفع ملفي إلى أي مكان؟
أبداً. يجري الاستخراج بالكامل داخل متصفحك عبر WebAssembly — يمكن التحقق في DevTools ← Network. الملف يبقى على جهازك.
ماذا عن ملفات PDF المحمية بكلمة مرور؟
افتح القفل أولاً باستخدام أداة فك قفل PDF، ثم استخرج النص. لا يمكن تحليل تيارات المحتوى المشفرة بدون كلمة المرور.
ما هو الحد الأقصى لحجم الملف؟
حتى 100 ميجابايت. أي حجم أكبر قد يستنزف ذاكرة المتصفح — جرّب تقسيمه أولاً بأداة تقسيم PDF.