يقود مختبر أبحاث IBM في حيفا مشروعًا أوروبيًا لرقمنة النصوص القديمة

تم تصميم مشروع IMPACT لتطوير الأدوات والأساليب التي ستمكن من الحفاظ على هذه النصوص التاريخية القيمة بالوسائل الرقمية، والسماح بالوصول إليها عن طريق البحث عبر الإنترنت وضمان إمكانية الوصول إليها للأجيال القادمة

تال دروري، مختبر IBM في حيفا
تال دروري، مختبر IBM في حيفا

يشارك علماء من مختبر أبحاث IBM في حيفا في مشروع مشترك مع أكثر من عشرين مؤسسة أكاديمية وهيئة بحثية في أوروبا، للحفاظ على الوثائق من القرن الخامس عشر وما بعده.

تم تصميم مشروع IMPACT لتطوير الأدوات والأساليب التي ستمكن من الحفاظ على هذه النصوص التاريخية القيمة بالوسائل الرقمية، والسماح بالوصول إليها عن طريق البحث عبر الإنترنت وضمان إمكانية الوصول إليها للأجيال القادمة.

أدت الجهود البحثية، التي مولتها الجماعة الأوروبية، إلى تطوير نظام الرقمنة (OCR) الذي يستخدم طريقة الحوسبة المجتمعية (المصادر الجماعية) من أجل تقديم طريقة جديدة لمعالجة النصوص التاريخية. إن التحدي المتمثل في رقمنة النصوص اليوم لا يتعلق فقط بالمكتبات والمحفوظات التاريخية - ولكن أيضًا بأي مؤسسة مهتمة بحفظ وتحويل الوثائق القديمة والقديمة ذات القيمة التاريخية أو الأهمية التجارية.

إن برنامج الرقمنة الذي تم تطويره في مختبر IBM يقلل بشكل كبير من الحاجة إلى المعالجة اليدوية الباهظة الثمن للنصوص الممسوحة ضوئيًا، والتي تنبع من الاستخدام السابق للخطوط المعقدة، والتي ليست مألوفة في برامج اليوم - وكذلك بسبب الاختلاف في المفردات المقبولة وبنية اللغة. يتيح مفهوم الحوسبة المجتمعية، الذي تنفذه شركة IBM كجزء من المشروع، لمجموعات كبيرة من المتطوعين المنتشرين في جميع أنحاء أوروبا المشاركة والمساهمة بوقتهم للتحقق من تحديد النصوص وتصحيح أخطاء التعريف من خلال نظام ويب عبر الإنترنت. ومع إجراء هذه التصحيحات، يعرف النظام كيفية التعلم وتصحيح أخطائه، من أجل تحقيق اكتشاف أفضل في المستقبل.

وبعد نجاح المراحل الأولى من المشروع، تقوم شركة IBM والمجتمع الأوروبي بتوسيع نطاق التعاون ليشمل الآن المكتبات الوطنية ومؤسسات البحث والجامعات وشركات الأعمال الأخرى. على عكس المشاريع التي تم تنفيذها في الماضي في مجال الرقمنة، والتي لم تنتج سوى نتائج ثابتة، في شكل مكتبات نصية على الإنترنت، فإن المشروع الجديد وواسع النطاق الجاري تنفيذه الآن سيوفر أيضًا أدوات وأساليب جديدة من شأنها أن تخدم المؤسسات في جميع أنحاء أوروبا وسيسمح لهم بمواصلة إنتاج نسخ رقمية دقيقة من النصوص ذات الأهمية التاريخية بكفاءة، وإتاحتها لعامة الناس، مع فتح إمكانية البحث في هذه المحتويات وتحريرها في دراسات وعروض تقديمية.

يكتسب مفهوم الحوسبة المجتمعية، الذي يقوم عليه المشروع، زخمًا في مجالات المحتوى المختلفة. إن دمج تقنية التعرف الضوئي على الحروف (OCR) من IBM مع جهود الحوسبة المجتمعية سيجعل من الممكن لأول مرة مسح الخطوط القديمة والفريدة من نوعها ورقمنتها، مما يقلل من معدل الخطأ بنسبة 35%.

صرح تال دروري، مدير مجموعة معالجة الوثائق في مختبر أبحاث IBM في حيفا، أن "مشروع IMPACT لا يوفر فقط لهيئات البحث المركزية طريقة لتقريب الناس من النصوص التاريخية التي لم يكن من الممكن الوصول إليها وغير مرئية للعامة في السابق: كما يسمح لهم بأن يصبحوا جزءًا من جهود الحفظ بأنفسهم. هذا هو أول نظام رقمي يجمع بين قوة الجمهور والمجتمع - جنبًا إلى جنب مع تقنية التعرف البصري التكيفي، التي لديها القدرة على التعلم وتصحيح الأخطاء، قادرة على التعامل مع النصوص التي تم إنشاؤها من القرن الخامس عشر حتى نهاية القرن التاسع عشر".

تتعامل محركات التعرف الضوئي على الحروف الشائعة المعروفة اليوم مع النصوص الحديثة بشكل جيد. ومع ذلك، فإن الحبر الباهت أو الورق أو المخطوطة القديمة، بالإضافة إلى الأشكال الخاصة من الخطوط المميزة للوثائق القديمة، قد تخفض مستوى تحديد الهوية بمعدلات كبيرة، وبالتالي تتطلب عملاً يدويًا مكثفًا لتصحيح نتائج الرقمنة. يقول دروري: "إن الطريقة الوحيدة التي تمكن من رقمنة المواد التاريخية على نطاق واسع هي تحسين جودة عملية التحديد البصري للنص".

يسمح النظام الذي تم تطويره في مختبر أبحاث IBM للمتطوعين من جميع أنحاء أوروبا بالتحقق من موثوقية النص المعالج وتصحيح أخطاء التعريف باستخدام نظام الإنترنت. من أجل تحسين عملية الفحص، يعرف النظام كيفية تقديم صفحة المصدر الممسوحة ضوئيًا للممتحن ليس فقط - ولكن الكلمة الدقيقة التي تتطلب فحصًا متعمقًا. وهكذا، على سبيل المثال، فإن الجمع بين الحرفين الإنجليزيين "r" و"n" اللذين يظهران بجانب بعضهما البعض، غالبًا ما يؤدي إلى خطأ في قراءة الكمبيوتر، عندما يفترض الكمبيوتر أن rn هو في الواقع الحرف m. عندما يصل النظام إلى نقاط يوجد فيها شك حول التحديد - فهو يجمع العديد من هذه الحالات التي تم تحديدها على أنها m متناثرة في جميع أنحاء النص - ويعرضها معًا وبجوار الكلمة المشكوك فيها. وبالتالي، يستطيع الفاحص استخلاص استنتاجات حول التحديد الصحيح بسهولة أكبر، وتصحيح عدد كبير من الحالات في عملية واحدة.

عندما يكون هناك شك حول تحديد كلمة بأكملها، يقوم النظام بإضافتها إلى مجموعة من الكلمات غير الواضحة، والتي يتم عرضها بترتيب ألفا بايت. ويجب على المتطوعين الذين يساعدون المشروع قبول أو رفض اقتراحات النظام لتحديد هذه الكلمات، في عملية تتم بضغطة زر واحدة. بالإضافة إلى ذلك، يستخدم النظام قدرة فريدة على توسيع مفرداته، بحيث تتم إضافة كلمات جديدة إلى القاموس الداخلي، بناءً على التحديد والتصحيح الوارد من مستخدمين مختلفين.

وتشمل قائمة الهيئات المشاركة في مشروع IMPACT، من بين جهات أخرى، المكتبات الوطنية في هولندا وبريطانيا العظمى وفرنسا والنمسا وألمانيا، والمكتبة المركزية لولاية بافاريا، والمكتبة الجامعية في غوتنغن، والمعهد الهولندي للغويات. وجامعة ميونيخ، وجامعة باث، والمكتبة الوطنية الفرنسية، والمكتبة الوطنية الإسبانية، ومركز الحوسبة الفائقة في بوزنان، بولندا وغيرها.

ترك الرد

لن يتم نشر البريد الإلكتروني. الحقول الإلزامية مشار إليها *

يستخدم هذا الموقع Akismat لمنع الرسائل غير المرغوب فيها. انقر هنا لمعرفة كيفية معالجة بيانات الرد الخاصة بك.