لماذا يصعب تطوير أنظمة التعرف التلقائي على الأشياء؟
بقلم أوري نيتسان
يوجد في كل بنك موظفون مسؤولون عن فك رموز الحروف والأرقام
التي هي مدرجة في الشيكات. عملية الفرز سهلة ولكنها تستغرق وقتًا طويلاً، ويتم كل عام
تنفق البنوك في الولايات المتحدة أكثر من ملياري دولار على الخدمات
هذا النوع من الفرز.
يمكن للآلات التي تقرأ الكتابة اليدوية أن تقوم بأعمال الفرز للمسار
البنوك، ولكن التكنولوجيا المطلوبة للتعرف على الكتابة اليدوية على مستوى الإنسان من الدقة
غير موجود بعد. "كل طفل يبلغ من العمر سبع سنوات قادر على قراءة خط يده وخط يده
"يد الآخرين"، يقول البروفيسور شمعون أولمان من معهد وايزمان، "وسأل
والسؤال هو لماذا لا تستطيع أجهزة الكمبيوتر العملاقة الأكثر تقدما القيام بذلك."
أولمان، عالم رياضيات من خلال التدريب، قام بالبحث في النظام البصري لسنوات عديدة،
وكجزء من مختبر الذكاء الاصطناعي، يقوم بتصميم وتطوير "آلات الرؤية".
تناولت أطروحة الدكتوراه التي كتبها في معهد ماساتشوستس للتكنولوجيا (MIT).
في الروابط بين الرؤية ثلاثية الأبعاد وإدراك الحركة. ثم بقي
في معهد ماساتشوستس للتكنولوجيا كعضو هيئة تدريس لمدة 15 عاما، حتى انضم إلى قسم الرياضيات والعلوم
الكمبيوتر في معهد وايزمان الذي يرأسه حاليا.
يقول أولمان: «هدفنا هو فك رموز النشاط الإجمالي للخلايا
العصب يشارك في الرؤية، وفهم الجانب الحسابي للنظام.
ويتم العمل بالتعاون مع علماء الأعصاب الذين يدرسون الجانب
النشاط البيولوجي والكهربائي للخلايا العصبية الفردية، وأحد أهدافه
والهدف الرئيسي هو تطوير نظام رؤية اصطناعي يتعرف على الأشياء."
يفرق الإنسان بسهولة بين الكلب والقطة، لكن الباحثين يكافحون
استعادة هذه القدرة. لقد عمل الآلاف من الناس لعقود من الزمن
لحل مشكلة الكشف التلقائي عن الكائنات، لا يوجد نظام حتى الآن
من يفعل ذلك على مستوى طفل عمره ثلاث سنوات. نظام الرؤية الاصطناعية أمر لا بد منه
لتأخذ في الاعتبار حقيقة أن صور كائن معين يمكن أن تكون
مختلفة جدا عن بعضها البعض. لو أن العقل احتفظ بصورتين أو ثلاث صور
العظام ومقارنتها بصورة جديدة، على الأرجح أننا لم نكن كذلك على الإطلاق
تحديد الأشياء. تتغير زاوية رؤية الكائن، وهناك ألعاب للضوء
Vetzel، وعندما تخطط لأنظمة تشغيل "آلات الرؤية" عليك أن تفعل ذلك
فهم ومعالجة جميع التغييرات المحتملة. العقل البشري يعرف
تنوع مظاهر العظام، و"تحييد" العوائق على مستوى اللاوعي.
"يقوم البشر بتصفية المعلومات غير ذات الصلة، ويكونون قادرين على تحديد الخصائص
الذي يحول الكلب إلى كلب والقطة إلى قطة. ونحن جميعا نعرف مباشرة أن العقل
يقول أولمان: "قادر على فهم جوهر الكلاب، ومنذ اللحظة التي التقينا فيها
مع عض الكلب، احذر من أي كلب يشبهه، ومن أي زاوية نظر".
ويحاول البروفيسور أولمان وزملاؤه إعادة إنتاج هذه القدرة في الأنظمة
المحوسبة، وبشكل غير مباشر أيضًا للتخلص من عمليات الرؤية والتعرف عليها.
"إن الطموح هو تطوير برامج الكمبيوتر التي تتصور الصورة وتكون قادرة على وصفها
الكائنات التي تظهر فيه وتحديدها. لهذا، تم تطوير الخوارزميات
الرياضية ومحاولة فهم أوجه التشابه بين نشاط الدماغ وما يملي عليه
الخوارزمية".
يعتمد النهج التقليدي للتعرف على الكائنات على مقارنة صورة الكائن
للعديد من الصور المدروسة سابقاً. وفقًا لهذا النهج، يتم تحديد العظم على أنه قطة أو
بالنسبة للكلب، سيتم القيام بذلك على النحو التالي: قم بإطعام الكمبيوتر بالعديد من صور الكلاب
والقطط، مع التركيز على أنواع مختلفة من القطط والكلاب والصور الفوتوغرافية
زوايا مختلفة. يقوم الكمبيوتر بمقارنة صورة العظم بقاعدة بيانات الصور
موجود، والتشابه الكافي مع أحد الأمثلة سيحدد الكائن على أنه كلب أو قطة.
لا يأخذ النهج التقليدي في الاعتبار حقيقة أن الحيوانات الأليفة يمكنها التأرجح
الذيل في وقت ما وأسقطه في وقت آخر.
إن ديناميكية البنية العظمية ستجعل من الصعب على الكمبيوتر مطابقتها بنجاح
للحصول على أمثلة مخزنة في الذاكرة.
يعتمد بحث أولمان على الاكتشاف التلقائي للميزات الجزئية.
هذه الخصائص هي أشكال فرعية وأجزاء من الكائن، والتي تشكل نوعًا
أبجدية أساسية يمكن تجميع كائنات مختلفة منها. الخوارزمية
التي طورها أولمان وطلابه تقطع صورة العظم إلى "قطع ألغاز"
ويحدد الأهمية النسبية لكل "قطعة" لتعريف بيوت الكلاب أو
القطط. "بهذه الطريقة يمكننا حساب كمية المعلومات الفريدة المقدمة
لينتج من ذيل الكلب أو أذن القطة. يقوم الكمبيوتر بتخزين
الأبجدية الرسمية التي تُبنى منها الكلاب والقطط، وعند الحاجة إلى التعرف عليها
كلبًا، سيستخدم قاعدة بيانات الخصائص الجزئية التي تحدد الكلاب."
نظام تجريبي تم تطويره من قبل طلاب أبحاث أولمان بالفعل
"يعرف" كيفية تحديد الخصائص الأساسية للكائن واكتشافها من الصور
السيارات والوجوه وغيرها من الأشياء. وفي الخطوة الثانية، يستخدم النظام
الميزات التي حددتها لتحديد الوجوه والسيارات ضمن رقم
الكثير من الصور الجديدة. "من الممكن إجراء مقارنة بين نظامنا والطفل
رؤية الأشياء لأول مرة، السيارات على سبيل المثال. يقوم الطفل بتحديد المكان وتخزينه
"تذكر الخصائص الفريدة للسيارة"، يوضح أولمان،
"ومن ذلك اليوم سيكون قادرا على التعرف على السيارات التي لم يرها من قبل."
تعتبر الأبحاث الإسرائيلية في مجال رؤية الكمبيوتر واحدة من الأبحاث الرائدة في العالم، وهي موجودة بالفعل
وله العديد من العواقب العملية. البروفيسور أولمان هو أحد مؤسسي الشركة
"Orbotek" التي تنفذ أنظمة الرؤية الحاسوبية. الشركة تنتج بالفعل
وتقوم بتسويق جهاز يقوم بإجراء فحص بصري تلقائي للدوائر المطبوعة
(تم إجراء الاختبار مسبقًا بواسطة موظفين مزودين بعدسة مكبرة).
الدوائر المطبوعة هي جزء من كل نظام إلكتروني، ووظيفتها هي التواصل
بين الرقائق - اللبنات الأساسية للنظام.
أصبح الفحص البصري الآلي جزءًا لا يتجزأ من عملية الإنتاج
للدوائر، ويتضمن "قراءة" الروابط الإلكترونية
طباعتها وتحديد الأخطاء والعيوب.
https://www.hayadan.org.il/BuildaGate4/general2/data_card.php?Cat=~~~309911385~~~207&SiteName=hayadan