كيف تبحث في ملفات ال”Pdf” باستخدام الأمر “Pdfgrep” في سطر الأوامر

0 18

يوجد العديد من الأوامر المفيدة والرائعة مثل أمري “grep” و”ack-grep” التي يمكن استخدامها في البحث عن ملفات النصوص عبر البحث عن عبارات محددة. لكن هل سبق لك من ذي قبل أن بحث عن بعض العبارات داخل ملفات البي دي إف باستخدام مثل هذه الأوامر؟ طبعا لن تتمكن من ذلك لأن مثل الأدوات التي ذكرناها لا تستطيع قراءة ملفات البي دي إف فهي تقرأ ملفات النصوص فقط.

لكن يوجد سطر أوامر يمكنه القيام بهذه المهمة وهو “Pdfgrep” حيث يمكنه أن يبحث عن النصوص داخل ملفات البي دي إف دون أن يفتحها. ويعتبر سطر الأوامر هذا سريعا جدا بل أسرع من البحث الذي يمكن أن توفره لك بعض برامج عرض ملفات البي دي إف. ويتمثل الاختلاف الكبير بين الأمرين “Grep” و”Pdfgrep” في أن أمر “Pdfgrep” يعمل على الصفحات في حين أمر “grep” يعمل على الأسطر. ويقوم أمر “Pdfgrep” أيضا بطبع سطر ما عدة مرات في حال وجد نتيجة مطابقة لعدة مرات في نفس السطر لعملية البحث. وسنتعلم في هذه المقالة كيف نعمل بهذا الأمر.

التثبيت

لتثبيت الأمر على توزيعة أوبنتو “Ubunto” وتوزيعات لينكس الأخرى التي تعتمد على أوبنتو نقوم بالأمر التالي :

sudo apt install pdfgrep

التوزيعات الأخرى قم بإدخال “Pdfgrep” لمدير الحزمات لتثبيت الآداة. تستطيع كذلك زيارة صفحة المشروع على “GitLab” في حال أردت القيام بتعديلات في الكود.

اختبار التشغيل

الآن وبعد أن قمت بتثبيت الآداة لنقم بتجربتها عبر إدخال سطر الأوامر بالشكل التالي :

pdfgrep [OPTION...] PATTERN [FILE...]

Option” هي مجموعة من العناصر التي يمكننا أن نعطيها للأمر مثل “i-” أو “ignore-case–“، هذين العنصرين يقومان بتجاهل الاختلافات بين الأنماط المحددة والنتيجة المطابقة في الملف.

Pattern” هي مجرد عبارة منتظمة وممتدة

File” هو اسم الملف في حال كان في نفس المجلد أو المسار إلى الملف

وإليك النتيجة التي تم الحصول عليها بعد استخدام الأمر على Python 3.6

الكلمة المعلمة باللون الأحمر تشير إلى الأماكن التي إيجاد كلمة “queue” فيه وبإضافة الخيار “i-” إلى الأمر تم ضم كلمة “Queue” أيضا إلى نتيجة البحث.

ويتوفر الأمر “Pdfgrep” على مجموعة من الخيارات التي يمكن استخدامها ونذكر من بعضها :

  • “c-” أو “count–” : يساعد هذا الخيار على عرض قيمة فقط تمثل عدد المرات التي تم إيجاد الكلمة فيها بالملف.
  • “p-” أو “page-count–” : هذا الخيار يساعد على معرفة عدد المرات التي تم فيها العثور على تطابق في الصفحة.
  • “m-” أو”max-count–” : يشير “number” إلى عدد مرات التطابق وهذا يعني أنه عند بلوغ عدد التطابق النهائي يتوقف الأمر عن قراءة الملف.

ويمكن إيجاد قائمة بجميع الخيارات التي يمكن استخدامها على هذه الصفحة. لا ننسى أيضا أن أمر “Pdfgrep” يمكنه البحث في ملفات متعددة في نفس الوقت أيضا في حال كان لديك عدد كبير من المفات أيضا.

في المرة المقبلة التي ترغب فيها بالبحث في ملفات ال”PDF” عن أي شيء يمكنك استخدام “Pdfgrep” حيث سيوفر عليك الكثير من الوقت.

اترك رد

لن يتم نشر عنوان بريدك الإلكتروني.