تحويل PDF إلى اكسل
استخرج الجداول من PDF إلى مصنفات Excel قابلة للتحرير. الكشف والتحليل يحدثان بالكامل في متصفحك.
تحقق بنفسك: افتح DevTools → علامة التبويب Network → أفلت ملفًا. شاهد كيف لا يحدث أي رفع.
ثلاث خطوات. بلا رفع.
أفلت ملف PDF
يُحمَّل في ذاكرة المتصفح.
اكتشاف الجداول
نحدد حدود الجداول ونحلل الخلايا محليًا.
نزّل XLSX
افتحه في Excel أو Numbers أو Google Sheets.
عندما يكون الجدول داخل PDF ويلزم أن يصبح جدولًا من جديد
تنبثق المناسبات عادةً تبعًا لاختيار شخصٍ آخر للصيغة. يرسل المصرف كشف الحساب بصيغة PDF، وتريد سكب المعاملات في جدول بيانات لتجميع فئة. تصلك قائمة الأسعار من المورِّد بصيغة PDF، وتريد مقارنتها بالربع الماضي. تنشر هيئة تنظيمية جداول البيانات بصيغة PDF فقط، وأنت تحتاجها على هيئة خلايا للترتيب والتصفية. تقرير مأخوذ بالتقاط الوب على هيئة PDF، وتريد كل صفٍّ صفًّا. في كل هذه الحالات، الأرقام موجودة؛ غير أنها لا تتصرَّف كأرقام لأنها محبوسة في تنضيد.
المهمَّة هنا استرداد الصفوف والأعمدة: تأخذ الـPDF، تستردُّ .xlsx تكون فيه كل صفحة ورقةً قائمة بذاتها، وكل صفٍّ صفًّا، وكل عمود عمودًا. ومن هناك يمكنك الترتيب والتصفية والجمع وعمل الجداول المحورية — ما وُجدت من أجله جداول البيانات.
لماذا هذا تخمين — وتخمين جيد إلى حدٍّ بعيد
لا تخزِّن ملفات PDF الجداول. في الداخل، الصفحة دفقٌ مسطَّح من شظايا نصِّية بإحداثيات x/y على اللوحة. لا يوجد في أيِّ مكانٍ نصٌّ يقول «هذا صفّ» أو «هنا يبدأ عمود» — هذه الهياكل لا توجد إلَّا في عينك حين تقرأ. استرجاعها يعني استنتاج الشبكة من المكان الذي يجلس فيه النصُّ فعلًا.
تقوم الأداة بذلك على عدَّة مراحل. أولًا تجمع شظايا النصِّ في صفوف وفقًا لـ y: إذا كانت شظيتان رأسيًّا في حدود نصف ارتفاع السطر، فهما تنتميان إلى الصفِّ نفسه. ثم داخل الصفِّ، الشظايا المتقاربة أفقيًّا تندمج في خليَّة واحدة (تباعد حروف عادي)، وتصبح الفجوات الأوسع حدودَ خلايا (ممرَّات بين الأعمدة). أخيرًا، تنظر الأداة إلى مواضع بدء الخلايا عبر الصفحة بأكملها، وتجد المواضع x المهيمنة وتتعامل معها بوصفها مراكز أعمدة — وكل خليَّة تذهب إلى أقربها. هكذا تنتج الشبكة المستطيلة التي يطلبها جدول البيانات.
ما يحسنه الخوارزم
- الجداول المالية الكلاسيكية — كشوف الحسابات والفواتير وقوائم الأسعار وتقارير المصاريف. صفٌّ لكل سجل، وممرَّات نظيفة بين الأعمدة، والأرقام محاذاتها يمين: هذه بالضبط الحالة التي ضُبط لها التحليل التجريبي، وعادةً يخرج الناتج نظيفًا.
- السجلَّات أحادية السطر. حين يدخل كل سجلٍّ في سطرٍ واحد، يكون اكتشاف الصفوف موثوقًا.
- الجداول التي تشغل عرض الصفحة كاملًا. يعمل اكتشاف الأعمدة على أحسن ما يكون عندما تكون الأعمدة متباعدة جيدًا وثابتة على امتداد الصفحة.
- المحاذاة يمينًا ويسارًا. تستوعب الأداة الاثنين — المهمُّ ممرٌّ واضحٌ بين الأعمدة.
أين تواجه صعوبات
- الخلايا التي يلتفُّ نصُّها لسطرٍ ثانٍ. الخليَّة التي تنتقل قيمتها إلى سطرٍ ثانٍ — وصف منتجٍ طويل، عنوان متعدِّد الأسطر — تنشطر عادةً إلى صفَّين. يحلُّ ذلك تنظيفٌ يدويٌّ خفيف في الورقة (أو لجوءٌ إلى pdf-to-txt وإعادة بناء الجدول يدويًّا إن لم يستحقَّ التنظيف).
- الخلايا المدمَجة. العنوان الذي يُغطِّي بصريًّا عمودين سيظهر في عمود واحد فقط — العمود الأقرب. سترى الدمج كقيمةٍ في العمود A وفراغ في B.
- جدولان جنبًا إلى جنب. يرى كاشف الأعمدة الاثنين معًا وقد يسحقهما إلى جدولٍ واحدٍ عريض. يساعد قطع الـPDF إلى نصفين سلفًا.
- نصٌّ سيَّال على الصفحة نفسها مع الجدول. فقرةٌ فوق الجدول تُسهم بـ«صفوف» نصِّيَّة خاصَّةٍ بها — صفوفٌ ليست في الحقيقة صفوفًا، يسهل حذفها.
- الجداول الممتدَّة على عدَّة صفحات. كل صفحة تصير ورقةً منفصلة. لخياطتها في جدولٍ متَّصل، انسخ والصق أقسام البيانات بعد الاستخراج.
- ملفات PDF الممسوحة ضوئيًّا. القيد ذاته في أيِّ استخراج للنصِّ: إذا كانت الصفحة صورةً (كشف ممسوح، إيصال مصوَّر)، فلا شيء يمكن قراءته. مرِّرها أوَّلًا عبر OCR في أداةٍ أخرى.
ماذا تستلم في النهاية
ملفُّ .xlsx واحد. تصير كل صفحة من الـPDF ورقةً قائمة بذاتها باسم Page 1 وPage 2 وهكذا. يفتح في Excel وNumbers وGoogle Sheets وLibreOffice — في أيٍّ منها. الخلايا قيمٌ مجرَّدة؛ بلا تنسيق، ولا صيغ، ولا أنماط. الفائدة أن الأرقام صارت أرقامًا والأعمدة صارت أعمدة.
إن فضَّلت CSV على xlsx، فاحفظ الورقة بصيغة CSV من تطبيق جداول البيانات لديك — قائمةٌ واحدةٌ تفصلك.
ملاحظات عملية
- إذا كان الـPDF محميًّا بكلمة سر، فمرِّره أولًا عبر unlock-pdf. الـPDF المشفَّر لا يمكن فتحه لاستخراج الخلايا.
- للجداول العريضة جدًّا يساعد تدوير الـPDF المصدر إلى الوضع الأفقي قبل الاستخراج — أعمدةٌ أقلُّ، وممرَّاتٌ أنظف. التدوير في edit-pdf.
- إذا كنت تحتاج النصَّ فقط بلا بنية، فإن pdf-to-txt أسرع، والنتيجة أسهل في إعادة الترتيب.
- العملية المعاكسة — وضع ورقة Excel داخل PDF — هي excel-to-pdf.
ماذا يحدث لملفك
الاستخراج يجري في متصفِّحك. افتح أدوات المطوِّر وراقب علامة التبويب Network أثناء العملية — لا طلباتٍ صادرةً تحمل محتوى الملف. يبقى الـPDF على القرص، و.xlsx تنزيلٌ جديدٌ بجواره.
أسئلة متكررة
هل يُرفع ملف PDF؟
لا. الكشف والتحليل يحدثان بالكامل في متصفحك. الملف لا يغادر جهازك.
هل يعمل مع ملفات PDF الممسوحة (OCR)؟
الجداول الممسوحة تحتاج إلى OCR لتصبح خلايا قابلة للتحرير. ملفات PDF النصية (نص يمكن تحديده) تُستخرج مباشرة.
ما مدى دقة كشف الجداول؟
الجداول المحدَّدة بخطوط والشبكات ذات المسافات الواضحة تُستخرج نظيفةً. الخلايا المدمجة والجداول بلا حدود قد تحتاج مراجعة يدوية.
هل يمكنني اختيار صفحات معيّنة؟
نعم. اختر نطاق الصفحات لاستخراج الجداول من الصفحات التي تحتاجها فقط.