عملاق الفيديو

الدكتورة تالي ديكل هي في طليعة أبحاث الذكاء الاصطناعي التوليدية وشريكة في تطوير Lumiere - مولد الفيديو من Google. وتقول: "نريد أن نعرف ما إذا كانت الآلات يمكن أن تسمح لنا برؤية العالم بشكل أفضل".

على اليسار - صورة لزوجين في المطبخ، وعلى اليمين - صورة تم إنشاؤها بواسطة النموذج المحوسب بعد أن تم عرض الصورة الأصلية مع التعليمات: "روبوتان يرقصان في المطبخ"
على اليسار - صورة لزوجين في المطبخ، وعلى اليمين - صورة تم إنشاؤها بواسطة النموذج المحوسب بعد أن تم عرض الصورة الأصلية مع التعليمات: "روبوتان يرقصان في المطبخ"

قبل بضع سنوات، كان هذا يبدو خياليًا تمامًا. كل يوم، يقوم الملايين من الأشخاص حول العالم بتنشيط أنظمة الذكاء الاصطناعي التوليدية التي تنتج النصوص والصور ومقاطع الفيديو بسرعة فائقة. تبدو بعض المنتجات وكأنها من صنع الإنسان، بينما يقدم البعض الآخر مشاهد لم تكن موجودة من قبل.

إن التقدم السريع لنماذج اللغات الكبيرة (LLM)، والتي بدأت بعد سنوات عديدة من التطوير في إنتاج نصوص معقدة وموثوقة إلى حد ما، فاجأ حتى الخبراء في هذا المجال. ونتيجة لذلك، تم توجيه الأضواء أيضًا إلى النماذج التي تنشئ الصور ومقاطع الفيديو - وتم تسريع تطويرها. واليوم، أصبحت هذه النماذج قادرة على إنشاء فيديو واقعي في ثوانٍ لشارع في المدينة أو لسنجاب يمشي على القمر، في حين أن كل ما هو مطلوب هو إطعامهم بنصوص قصيرة أو وضع صور أمامهم كمصدر مرئي. لكن إلى جانب القدرات الهائلة والمخاوف بشأن المخاطر الكامنة في أجهزة الكمبيوتر التي تتمتع بمثل هذه القدرات، فإن نطاق عمل شبكات التعلم العميق لا يزال محدودا، خاصة فيما يتعلق بالفيديو، وهذا تحدي يشغل الكثير من العلماء.

في مختبر أبحاث الرؤية الحاسوبية التابع لـ د تالي ديكال من قسم علوم الكمبيوتر والرياضيات التطبيقية في معهد وايزمان للعلوم، يسعون جاهدين لاختراق قيود صناعة الآلات، ومحاولة الارتقاء بها إلى المستوى البشري وربما أبعد من ذلك. يقول الدكتور ديكل: "أعرّف مجال بحثنا بأنه إعادة عرض الواقع، أي إعادة خلق العالم المرئي باستخدام الأدوات الحسابية. نقوم بتحليل الصور ومقاطع الفيديو والتركيز على عناصر معينة منها، ثم إنشاء جديد نسخة من الصورة أو الفيديو ذات خصائص مختلفة. هدفي هو إثراء الطريقة التي نرى بها العالم، للسماح لنا بمزيد من الإبداع وحتى تفاعل جديد مع المعلومات المرئية. وتضيف: "خلال البحث، نطرح أسئلة مثيرة للاهتمام، مثل: "هل تسمح لنا الآلات برؤية العالم بشكل أفضل؟". 

إلى جانب عملها في معهد وايزمان، تعمل الدكتورة ديكل أيضًا كباحثة في Google. وبينما تركز في معهد وايزمان على اختراق قيود نماذج الذكاء الاصطناعي الحالية، فهي في Google شريكة في تطوير نماذج جديدة، مثل. باعتباره نموذج الفيديو الرائد "Lumiere" الذي تم الكشف عن منتجاته مؤخرًا لعامة الناس، فإن Lumiere قادر على إنتاج مجموعة متنوعة غنية ومثيرة للإعجاب من مقاطع الفيديو أو تحرير مقاطع الفيديو الموجودة وفقًا للتعليمات المقدمة إليه جملة صورة قصيرة أو مرجعية، على سبيل المثال، تظهر سلسلة من مقاطع الفيديو كيف تتحول امرأة تجري في حديقة إلى تمثال مصنوع من كتل خشبية أو طوب ملون أو زهور عندما أُعطي لوميير صورة لقاطرة بخارية قديمة تسير على متن قطار السكك الحديدية، مع وضع علامة على جزء الصورة الذي يحتوي على الدخان، أنشأ نموذج الكمبيوتر صورة متحركة جزئيًا يتحرك فيها الدخان فقط - وهذا بشكل موثوق بالنسبة للأجزاء الأخرى من الصورة التي تظل دون تغيير في الأمثلة ومن التسلية الأخرى، تتثاءب الموناليزا لدافنشي، وتبتسم الفتاة ذات القرط اللؤلؤي من لوحة فيرمير.

"إن Lumiere هو نموذج لتحويل النص إلى فيديو، حيث يقوم بإنشاء مقاطع فيديو ذات حركة واقعية ومتنوعة ومتماسكة - وهو تحدٍ بارز في إنشاء مقاطع الفيديو"، كما كتب الباحثون، بما في ذلك الدكتور ديكل، فيشرط الذي يعرض النموذج. ما يميز Lumiere هو قدرته على إنشاء تسلسل كامل من الإطارات دون فواصل بينها، مقارنة بالنماذج الأخرى التي تنتج أولاً إطارات مركزية وبعيدة على تواصل الزمان والمكان، وعندها فقط تكمل الحركة التي تحدث بينهما. ولهذا السبب، توجد صعوبة في الحفاظ على حركة موثوقة ومقنعة في النماذج الأخرى، في حين أن لوميير قادر على إنشاء تسلسلات كاملة للحركة ذات جودة عالية للغاية.

ولكن كيف تتمكن نماذج التعلم العميق من أداء هذه السحر؟ وتبين أن هذا ليس واضحًا تمامًا للعلماء أيضًا. يوضح الدكتور ديكل: "لقد شهد مجال الذكاء الاصطناعي الإبداعي نقلة نوعية. في الماضي القريب، كانت النماذج أصغر بكثير وأبسط ومصممة لحل مهام محددة، غالبًا باستخدام معلومات مصنفة. على سبيل المثال، من أجل تعليم الكمبيوتر كيفية التعرف على الأشياء الموجودة في الصور، كان من الضروري أن نعرض عليه مجموعة من الصور التي تم تصنيفها فيها ونشرح له أن هناك سيارة وهناك قطة وما إلى ذلك. اليوم، نمت النماذج وتحسنت وأصبحت قادرة على التعلم من كمية هائلة من المعلومات، دون وضع علامات بشرية عليها. تتعلم النماذج تمثيلاً عالميًا للعالم المرئي الذي يمكن استخدامه لمجموعة متنوعة من المهام، وليس فقط للمهمة المحددة التي تم تدريبهم عليها في المقام الأول. ويضيف الدكتور ديكل: "إن أجزاء كبيرة من شبكات الذكاء العصبي هي بمثابة "صناديق سوداء" بالنسبة لنا". ويصبح اللغز أكثر حدة عندما يتعلق الأمر بالنماذج التي تنشئ مقاطع فيديو، لأن كل ثانية من الفيديو تتكون من حوالي 25 صورة مختلفة، وبالتالي فإن حجم شبكات الكمبيوتر المطلوبة لذلك، والتحديات الحسابية التي تواجهها، يصبح متساويًا. أكبر فيما يتعلق بالنماذج التي تنشئ نصوصًا أو صورًا - وبالتالي نطاق التشغيل غير مفهوم للباحثين.

بالنسبة للدكتور ديكل، فإن "الصناديق السوداء" للنماذج تمثل فرصة مثمرة للبحث: "خلال عملية الدراسة الذاتية، اكتسبت العارضات معرفة هائلة حول العالم. كجزء من البحث حول إعادة إنشاء الواقع باستخدام الأدوات الرقمية، نحاول إنتاج منتجات جديدة من النماذج الموجودة تقريبًا دون تغييرها، ولكن فقط من خلال فك رموز أساليب عملها بشكل أفضل أثناء محاولة الكشف عن المهام الجديدة التي تكون قادرة على أدائها، " يقول الدكتور ديكل عن البحث الذي شارك فيه الدكتور شاي باغون من معهد وايزمان للعلوم، يوني كاستن من إنفيديا والطلاب عمر بار طال، ناريك تومانيان، ميشال غيير، رافائيل فريدمان ودانا يتيم.

ويبحث الباحثون في مختبر الدكتور ديكل عن طرق معالجة ذكية تتضمن تقسيم المحتوى إلى مكونات أبسط، مثل صورة تظهر خلفية الفيديو وصور أخرى كل منها مخصصة للأشياء التي تتغير أثناء هذا الفصل يسهل التحرير إلى حد كبير: بدلاً من معالجة عدد كبير من البكسلات، يتم تحرير صورة واحدة فقط ويتم تغيير جميع الإطارات الأخرى وفقًا لذلك. على سبيل المثال، إذا تغير لون الفستان في إطار واحد، تفهم العارضة كيفية تحديث التغيير في الفيديو كامل ل التحدي الآخر الذي يشغل الباحثين ينبع من أن العديد من منتجات النماذج لا تبدو موثوقة والأشياء التي تظهر فيها تتحرك بطريقة مختلفة عما نتوقعه بناء على تجربتنا في العالم.

كجزء من الجهود المبذولة لجعل النماذج تنتج مقاطع فيديو تكون فيها الحركة متسقة ومنطقية، أظهروا في مختبر الدكتور ديكل كيفية توسيع قدرة النموذج الذي ينتج صورة بناءً على النص - بحيث يمكنه أيضًا إنشاء وتحرير مقاطع الفيديو، على سبيل المثال، قاموا بتغذية نموذج مفتوح المصدر يسمى Stable Diffusion بمقطع فيديو لذئب يدير رأسه من اليمين إلى اليسار، وطُلب منه إنشاء مقطع فيديو مشابه يظهر فيه دوول يشبه الذئب الفيديو الذي تم إنشاؤه بواسطة النموذج تبدو مجزأة وغير موثوقة، ولكن من خلال تحديد تمثيلات المكونات المختلفة في الصور والفهم الأعمق للتعليمات التي يجب تغذيتها للنموذج - تمكن الباحثون من إنشاء مقطع فيديو تتحرك فيه دمية الذئب بشكل مقنع.

على اليسار - صورة لزوجين في المطبخ، وعلى اليمين - صورة تم إنشاؤها بواسطة النموذج المحوسب بعد أن تم عرض الصورة الأصلية مع التعليمات: "روبوتان يرقصان في المطبخ"
على اليسار - صورة لزوجين في المطبخ، وعلى اليمين - صورة تم إنشاؤها بواسطة النموذج المحوسب بعد أن تم عرض الصورة الأصلية مع التعليمات: "روبوتان يرقصان في المطبخ"

حصلت الدكتورة ديكل مؤخرًا على منحة من مجلس البحوث الأوروبي (ERC) للباحثين الشباب بمبلغ 1.5 مليون يورو، وكجزء من المنحة، تخطط للتعامل مع القيود الإضافية التي تعيق النماذج في طريقها إلى الإنشاء والتحرير نظرًا للتعقيد الكبير لمعالجة الفيديو، توجد فجوة كبيرة بين المعرفة التي اكتسبها هذا النموذج من مقاطع الفيديو العديدة التي تم تدريبه عليها، والخصائص الفريدة للحركة في مقطع فيديو معين مطلوب. من النموذج، سيحاول الدكتور ديكل تطوير نموذج يمكنه الاستدلال بشكل أفضل من خبرته المتراكمة على آلاف مقاطع الفيديو المختلفة حول احتياجات مقطع فيديو واحد.

وماذا عن المخاوف بشأن القوة الهائلة الكامنة في نماذج الكمبيوتر؟ يقول الدكتور ديكل: "هناك توازن دقيق بين الوعي بتأثير التكنولوجيا، والمخاطر الكامنة فيها، والرغبة في الترويج لها، وهذا هو التزامنا بالحفاظ على ذلك. قد يبدو في بعض الأحيان لعامة الناس كما لو أن النماذج تتمتع بقدرة مطلقة، لكن هذا ليس هو الحال اليوم. هدفي الرئيسي كباحث هو توسيع الإمكانيات الإبداعية المتاحة للجميع، حتى أولئك الذين ليسوا محترفين، وتعزيز العلوم والقدرة الحسابية لرؤية العالم.

المزيد عن الموضوع على موقع العلوم: