كيفية فهرسة كل شيء (2003)

بقلم جوش رابينوفيتش

1 تموز (يوليو) 2003

قد ترغب في إنشاء فهارس مخصصة للمستندات لأسباب عديدة. يتمثل أحد الحلول التي يتم الاستشهاد بها على نطاق واسع في توفير وظيفة البحث إلى موقع ويب ، ولكن قد ترغب أيضًا في فهرسة رسائل البريد الإلكتروني أو المستندات الفنية. ربما وجد أي شخص نظر في تطبيق مثل هذه الميزة أنها ليست بهذه البساطة التي تبدو عليها. تتضافر عوامل مختلفة لجعل البحث صعبًا.

تعد أداة grep الموقرة التي لا غنى عنها وإخوتها جيدة للتكرار عبر سطور النص. لكن grep و egrep وعلاقاتهما لن تفعل كل شيء من أجلك. لن يبحثوا عبر أسطر متعددة ، ولن يعرضوا نتائج البحث بترتيب مُرتَّب ، وخوارزميات البحث الخطي الخاصة بهم لا تصلح للبحث عن كميات أكبر من البيانات.

لا يساعد HTML الموقف أيضًا. تجعل ميزاته الموجهة نحو العرض ، والقواعد النحوية الخاصة ، والعديد من علامات التنسيق والكيانات من الصعب جدًا التحليل بشكل صحيح.

في الطرف الآخر من طيف تخزين البيانات ، يتم إدخال البيانات في قاعدة البيانات. المثال الشامل هو قاعدة بيانات SQL ، والتي تسمح بوظائف بحث معقدة إلى حد ما ولكنها عمومًا ليست سريعة بشكل خاص في البحث. بعض محركات قواعد البيانات ، ولا سيما MySQL 4 ، تحل هذه المشكلة عن طريق السماح بعمليات بحث سريعة ومرتبة ، ولكنها قد لا تكون قابلة للتخصيص كما هو مرغوب.

في هذه المقالة ، نستكشف طرقًا لإنشاء فهارس مخصصة باستخدام SWISH-E و Perl و XML على Linux. من خلال الأمثلة نوضح كيف يمكن استخدام SWISH-E لإنشاء فهارس لملفات HTML وملفات PDF وصفحات الدليل.

SWISH-E (نظام فهرسة الويب البسيط للبشر - مُحسَّن) هو سليل SWISH ، الذي تم إنشاؤه في عام 1994 بواسطة Kevin Hughes. تم نقل SWISH في عام 1996 إلى مكتبة جامعة كاليفورنيا في بيركلي لإصلاح الأخطاء وإضافة ميزات ، وتم ترخيص النتيجة بموجب GPL وأعيد تسميتها باسم SWISH-E. يستمر التطوير ، بقيادة مشرف المشروع الحالي ، بيل موسلي ، وبمساعدة فريق من المطورين.

هنا في SkateboardDirectory.com ، صادفنا SWISH-E أثناء البحث عن مجموعات أدوات الفهرسة. وجدنا أنه يقدم مجموعة فريدة من الميزات التي تجعله جذابًا لاحتياجاتنا. لا تقدم SWISH-E مجموعة أدوات سريعة وقوية لإنشاء الفهارس والاستعلام عنها فحسب ، بل إنها موثقة جيدًا وتخضع لتطوير نشط وإصلاحات للأخطاء وتتضمن واجهة Perl. لقد أحببنا أيضًا أن Maintainer Moseley وغيرهم من مستخدمي ومطوري SWISH-E ذوي الخبرة سريعون بشكل عام في الرد على الأسئلة والأخطاء التي تم الإبلاغ عنها في قائمة SWISH-E البريدية.

ثبّت SWISH-E

للحصول على أمثلة لدينا ، بدأنا بمحطة عمل Red Hat 7.3 القياسية مع تثبيت مجموعة حزم تطوير البرامج. اختبرنا أيضًا العينات على محطة عمل Red Hat 6.2 و Debian Woody.

في الوقت الحالي ، يعني تثبيت SWISH-E على Red Hat التثبيت من المصدر ، كما أن مكتبات zlib و libxml2 مطلوبة لترجمة SWISH-E بالكامل. إذا وجدت أنك بحاجة إلى تثبيت أحدهما أو الآخر ، فربما يمكنك العثور على الحزم التي تأتي مع التوزيعة الخاصة بك. نستخدم أيضًا حزمة xpdf في الأمثلة لدينا ، لذا يمكنك تثبيتها الآن إذا لم تكن كذلك بالفعل. تم تثبيت جميع متطلبات SWISH-E المرجعية لإعداد محطة عمل Red Hat 7.3.

نوضح هنا كيفية استخدام SWISH-E 2.4 ، والتي يقول فريق التطوير إنه يجب إصدارها بحلول الوقت الذي تقرأ فيه هذه المقالة. يمكنك استرداد وتهيئة SWISH-E بالتسلسل التالي من الأوامر ، واستبدال الإصدار الحالي بـ ( x.x ):

٪ wget \ http://swish-e.org/Download/swish-e-x.x.tar.gz ٪ tar zxf swish-e-x.x.tar.gz ٪ cd swish-e-x.x ٪ ./تهيئة ٪ حرفة ٪ أخذ الاختبار

لتثبيت SWISH-E الثنائي ومكتبات C وصفحات الدليل في مواقعها الافتراضية في / usr / local ، اكتب make install كجذر. يؤدي هذا إلى تثبيت ملف SWISH-E القابل للتنفيذ في / usr / local / bin. إذا لم يكن هذا الدليل في PATH ، فقم بتحرير ملف النقطة المناسب لتضمين / usr / local / bin في المسار الخاص بك ، أو اتصل دائمًا بالملف القابل للتنفيذ swish-e من خلال مساره الكامل ، مثل / usr / local / bin / swish- ه.

لنقم الآن ببناء وحدة SWISH :: API Perl وتثبيتها من دليل Perl في المصدر. سنحتاجه لاحقًا عندما نبني عميل Perl لفهرس صفحاتنا اليدوي. تم تكوين SWISH :: API بواسطة عملية تثبيت وحدة Perl العادية: ٪ cd لؤلؤة ٪ perl Makefile.PL ٪ حرفة ٪ أخذ الاختبار

بعد ذلك ، قم بتثبيت وحدة SWISH-E Perl عن طريق كتابة make insta ...

كيفية فهرسة كل شيء (2003)

بقلم جوش رابينوفيتش

1 تموز (يوليو) 2003

قد ترغب في إنشاء فهارس مخصصة للمستندات لأسباب عديدة. يتمثل أحد الحلول التي يتم الاستشهاد بها على نطاق واسع في توفير وظيفة البحث إلى موقع ويب ، ولكن قد ترغب أيضًا في فهرسة رسائل البريد الإلكتروني أو المستندات الفنية. ربما وجد أي شخص نظر في تطبيق مثل هذه الميزة أنها ليست بهذه البساطة التي تبدو عليها. تتضافر عوامل مختلفة لجعل البحث صعبًا.

تعد أداة grep الموقرة التي لا غنى عنها وإخوتها جيدة للتكرار عبر سطور النص. لكن grep و egrep وعلاقاتهما لن تفعل كل شيء من أجلك. لن يبحثوا عبر أسطر متعددة ، ولن يعرضوا نتائج البحث بترتيب مُرتَّب ، وخوارزميات البحث الخطي الخاصة بهم لا تصلح للبحث عن كميات أكبر من البيانات.

لا يساعد HTML الموقف أيضًا. تجعل ميزاته الموجهة نحو العرض ، والقواعد النحوية الخاصة ، والعديد من علامات التنسيق والكيانات من الصعب جدًا التحليل بشكل صحيح.

في الطرف الآخر من طيف تخزين البيانات ، يتم إدخال البيانات في قاعدة البيانات. المثال الشامل هو قاعدة بيانات SQL ، والتي تسمح بوظائف بحث معقدة إلى حد ما ولكنها عمومًا ليست سريعة بشكل خاص في البحث. بعض محركات قواعد البيانات ، ولا سيما MySQL 4 ، تحل هذه المشكلة عن طريق السماح بعمليات بحث سريعة ومرتبة ، ولكنها قد لا تكون قابلة للتخصيص كما هو مرغوب.

في هذه المقالة ، نستكشف طرقًا لإنشاء فهارس مخصصة باستخدام SWISH-E و Perl و XML على Linux. من خلال الأمثلة نوضح كيف يمكن استخدام SWISH-E لإنشاء فهارس لملفات HTML وملفات PDF وصفحات الدليل.

SWISH-E (نظام فهرسة الويب البسيط للبشر - مُحسَّن) هو سليل SWISH ، الذي تم إنشاؤه في عام 1994 بواسطة Kevin Hughes. تم نقل SWISH في عام 1996 إلى مكتبة جامعة كاليفورنيا في بيركلي لإصلاح الأخطاء وإضافة ميزات ، وتم ترخيص النتيجة بموجب GPL وأعيد تسميتها باسم SWISH-E. يستمر التطوير ، بقيادة مشرف المشروع الحالي ، بيل موسلي ، وبمساعدة فريق من المطورين.

هنا في SkateboardDirectory.com ، صادفنا SWISH-E أثناء البحث عن مجموعات أدوات الفهرسة. وجدنا أنه يقدم مجموعة فريدة من الميزات التي تجعله جذابًا لاحتياجاتنا. لا تقدم SWISH-E مجموعة أدوات سريعة وقوية لإنشاء الفهارس والاستعلام عنها فحسب ، بل إنها موثقة جيدًا وتخضع لتطوير نشط وإصلاحات للأخطاء وتتضمن واجهة Perl. لقد أحببنا أيضًا أن Maintainer Moseley وغيرهم من مستخدمي ومطوري SWISH-E ذوي الخبرة سريعون بشكل عام في الرد على الأسئلة والأخطاء التي تم الإبلاغ عنها في قائمة SWISH-E البريدية.

ثبّت SWISH-E

للحصول على أمثلة لدينا ، بدأنا بمحطة عمل Red Hat 7.3 القياسية مع تثبيت مجموعة حزم تطوير البرامج. اختبرنا أيضًا العينات على محطة عمل Red Hat 6.2 و Debian Woody.

في الوقت الحالي ، يعني تثبيت SWISH-E على Red Hat التثبيت من المصدر ، كما أن مكتبات zlib و libxml2 مطلوبة لترجمة SWISH-E بالكامل. إذا وجدت أنك بحاجة إلى تثبيت أحدهما أو الآخر ، فربما يمكنك العثور على الحزم التي تأتي مع التوزيعة الخاصة بك. نستخدم أيضًا حزمة xpdf في الأمثلة لدينا ، لذا يمكنك تثبيتها الآن إذا لم تكن كذلك بالفعل. تم تثبيت جميع متطلبات SWISH-E المرجعية لإعداد محطة عمل Red Hat 7.3.

نوضح هنا كيفية استخدام SWISH-E 2.4 ، والتي يقول فريق التطوير إنه يجب إصدارها بحلول الوقت الذي تقرأ فيه هذه المقالة. يمكنك استرداد وتهيئة SWISH-E بالتسلسل التالي من الأوامر ، واستبدال الإصدار الحالي بـ ( x.x ):

٪ wget \ http://swish-e.org/Download/swish-e-x.x.tar.gz ٪ tar zxf swish-e-x.x.tar.gz ٪ cd swish-e-x.x ٪ ./تهيئة ٪ حرفة ٪ أخذ الاختبار

لتثبيت SWISH-E الثنائي ومكتبات C وصفحات الدليل في مواقعها الافتراضية في / usr / local ، اكتب make install كجذر. يؤدي هذا إلى تثبيت ملف SWISH-E القابل للتنفيذ في / usr / local / bin. إذا لم يكن هذا الدليل في PATH ، فقم بتحرير ملف النقطة المناسب لتضمين / usr / local / bin في المسار الخاص بك ، أو اتصل دائمًا بالملف القابل للتنفيذ swish-e من خلال مساره الكامل ، مثل / usr / local / bin / swish- ه.

لنقم الآن ببناء وحدة SWISH :: API Perl وتثبيتها من دليل Perl في المصدر. سنحتاجه لاحقًا عندما نبني عميل Perl لفهرس صفحاتنا اليدوي. تم تكوين SWISH :: API بواسطة عملية تثبيت وحدة Perl العادية: ٪ cd لؤلؤة ٪ perl Makefile.PL ٪ حرفة ٪ أخذ الاختبار

بعد ذلك ، قم بتثبيت وحدة SWISH-E Perl عن طريق كتابة make insta ...

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow