الذكاء الاصطناعي الذي يولد الصور يتدرب على أعمال الفنانين دون موافقتهم، ويقلد أسلوبهم أيضًا. قررت مجموعة من الباحثين والفنانين محاربة الظاهرة بأدوات رقمية متطورة
بقلم تال سوكولوف، موقع معهد ديفيدسون
القدرات المذهلة لمولدات المحتوى على سبيل المثال لوح ومنتصف الرحلة أولئك الذين يقومون بإنشاء صور من النص، أو شات جي بي تي وأمثالها التي تولد نصوصا باللغة الطبيعية، تعتمد على كميات هائلة من المعلومات التي يتعلم منها المولدون. تتضمن مرحلة تصميم هذا المولد التدريب على مجموعة كبيرة جدًا من المعلومات. على سبيل المثال، المولد الذي ينتج صورة من جملة أعطيت له من قبل المستخدم، يمر بمرحلة تدريب يرى فيها العديد من الأمثلة على الصور الحقيقية والنص الذي يمثلها، بحيث يتعلم الروابط المعقدة بين الكلمات الدلالية السياق والمحتوى المرئي.
هناك قواعد بيانات معتمدة تحتوي على صور ونصوص لمثل هذه الأغراض التدريبية، ولكن هناك حالات يتم فيها جمع المعلومات لمرحلة التدريب من قبل فحص شامل للإنترنت. واعترف بعض المطورين بأن جمع المعلومات للاحتياجات التدريبية لبعض المولدين تم دون موافقة أصحاب المعلومات. وجد الفنانون أنفسهم في موقف حيث يقوم المبدع الذي تعلم من أعماله المشهورة على الإنترنت، بتقليد الأسلوب الذي طوره خلال حياته المهنية بأكملها في ثوانٍ.
الدعاوى القضائية من قبل الفنانين ادعاء انتهاك حقوق الطبع والنشر وإثارة أسئلة أخلاقية فيما يتعلق باستخدام الذكاء الاصطناعي لثمار عمل الفنانين. حديثاً لقد تم نشر القوائم آلاف الفنانين، بعضهم معروفين جدًا والبعض الآخر أقل شهرة، والذين تم استخدام أعمالهم لتدريب المولدات دون موافقتهم. ويبدو أن المجال القانوني ما زال متعثرا، والحدود بين الإلهام القانوني والاستخدام غير المشروع ليست محددة بشكل جيد.
هجوم مضاد
الحماية المباشرة ضد استخدام الأعمال الفنية دون موافقة تجبر الفنانين على الإضرار بنشر أعمالهم. العلامات المائية التي يتم ختمها على الأعمال قد تضر بالجماليات، وهناك أدوات بالفعل لإزالة الطوابع مثل. الحل النهائي ليس نشر الأعمال على الشبكة المفتوحة، لكن هذا إثم على أهداف النشر للفنانين.
وهناك من قرر ألا يقف مكتوف الأيدي. مجموعة من الباحثين من جامعة شيكاغو في الولايات المتحدة يطور أدوات للهجمات ضد مولدات الصور. الهدف الأولي هو حماية العمل الأصلي للفنانين، ويتم تحقيقه بطريقة مسيئة، مما يؤدي أيضًا إلى تعطيل المبدعين الذين يحاولون استخدام هذه الأعمال. تعتمد الهجمات على خلق معلومات سيرغب المولدون في التدرب عليها، والتي تبدو بريئة ومناسبة، لكنها في الواقع "سامة" ومدمرة للمولد.
يمر المولدون أحيانًا بمراحل تحديث تعلمهم، حتى بعد أن يكونوا جاهزين بالفعل ومقدمين للجمهور، ويتضمنون تدريبًا إضافيًا على المعلومات الجديدة. ويقدم الباحثون أداة هجومية لا تقوم فقط بشن هجوم استباقي ضد المولدات المستقبلية، ولكنها قادرة أيضًا على إلحاق الضرر بالمولدات التي تسعى جاهدة للبقاء على اطلاع دائم والتحسين من وقت لآخر، وبالتالي ستضطر إلى استخدام أدوات جديدة. معلومات للتعلم. وفي سباق حيث يأتي إلى السوق كل بضعة أشهر مولد جديد يحطم الأرقام القياسية، فإن المعلومات السامة المتداولة على الشبكة يمكن أن تؤثر على النتائج.
يمكن أن يتم إتلاف المولدات بعدة طرق. ويتطلب البعض الوصول إلى أحشاء المولد أو عملية التدريب. لتمكين العدوى الفعالة ضد المولدات دون الدخول وراء الكواليس الفنية، يقترح الباحثون إجراءً نشر معلومات ملوثة على الشبكة، مما "يسمم" المولد، أي يعطل قدرته على إنشاء محتوى منطقي.
ومن الممكن تصميم الهجوم بطريقة معينة، على سبيل المثال تعطيل قدرة المولد على إنتاج صور للكلاب، بحيث يحصل المستخدم الذي يطلب صورة كلب على صورة قطة. في سياق حقوق الطبع والنشر، يمكن تنفيذ هجوم مصمم لحماية أعمال فنان يُدعى إسرائيل إسرائيلي بحيث عندما يطلب المستخدم "ارسم لي سيارة بالأسلوب الذي ترسمه إسرائيل إسرائيل" فإنه سيحصل على صورة بأسلوب مختلف، أو ليس سيارة على الإطلاق، ولكن شيء آخر، على سبيل المثال بطة .
كيف تبدو البطة؟
يكمن جوهر الهجوم في الطريقة التي يفسر بها المولدون محتوى الصورة. عندما نشاهد بطة، نتعرف على منقارها، وأجنحة، وريش، وربما حتى البحيرة التي تسبح فيها البطة. وبخلاصة كل هذه المتغيرات نحدد أنها بطة. وأحيانًا يخلطون بينه وبين الإوزة. تستخدم المولدات هياكل تسمى الشبكات العصبية. على الرغم من استعارة الاسم من الخلايا العصبية في دماغنا، فإن الشبكات العصبية المحوسبة تدرك المعلومات بشكل مختلف عن الدماغ.
بالنسبة للشبكة العصبية، الصورة عبارة عن مجموعة من الأرقام التي تشير إلى سطوع كل بكسل، أي نقطة في الصورة. عندما تتعلم الشبكة العصبية من مجموعات الصورة والنص الذي يصفها، فإنها تتعلم خصائص مجموعات البكسل التي تمثل الموضوعات في النص. يمكن أن تكون هذه الخصائص مشابهة للخصائص التي تساعد الشخص على اتخاذ القرار: على سبيل المثال، يمكن لمجموعات البكسل التي تمثل بنية زاوية حادة أن تشير إلى الأصل. تستخدم الشبكات أيضًا ميزات أقل تافهة، مثل الملمس وتكرار ظهور الهياكل المتكررة في سطوع وحدات البكسل والمزيد.
يتم تمثيل خصائص مثل المنقار والريش كوزن لهذه الخصائص. عندما يُطلب من الشبكة العصبية التي شاهدت بالفعل مجموعة من الأمثلة وتعلمت ما هي الخصائص التي تمثل البطة، إنتاج صورة بطة، فإنها تنتج صورة تتطابق خصائصها مع الخصائص التي تمثل البطة.
يمكنك اللعب بالعلاقة بين إدراكنا للكائن المسمى بطة، وإدراك الشبكة للكائن المسمى بطة. يمكنك خداع المولد وتحميل الكثير من الصور على الويب التي تم تصنيفها على أنها بطة ولكنها تظهر، على سبيل المثال، سيارة. بهذه الطريقة ستتعلم الشبكة ربط خصائص السيارة، والتي تختلف عن خصائص البطة ووضع العلامات على البطة. ومع ذلك، فإن التحكم البشري أو التلقائي في مدخلات التدريب يمكن أن يصحح مثل هذا الشيء.
الهجوم الذي يقترحه الباحثون أكثر غدرا ويصعب اكتشافه. هذه آلية منهجية حيث يمكنك تغيير قيم سطوع البكسلات في الصورة بحيث تظل العين البشرية ترى بطة، لكن المحتوى الرقمي للصورة سيعرض الخصائص التي تعلمت الشبكة أن تنسبها إلى سيارة. لن يلاحظ الشخص الذي ينظر إلى الصورة أي شيء غريب، لأن التغيير في البكسلات تم ضبطه على أن يكون صغيرًا قدر الإمكان، ولكنه كبير بما يكفي لتتمكن الشبكة العصبية من اكتشاف خصائص السيارة. إذا تم تقديم ما يكفي من الصور للسيارات التي تم "تخفيها" رقميًا على شكل بط إلى الشبكة، إلى جانب الوصف اللفظي للبطة، فسوف تقوم الشبكة بالتنقل بين التمثيلات. وهكذا، عندما يطلب المستخدم من الشبكة إنشاء صورة لبطة، ستكون النتيجة صورة تشبه مزيجًا من البطة والسيارة.
ويعتمد مستوى التشابه مع السيارات على النسبة بين المعلومات الملوثة والمعلومات النظيفة. وأظهر الباحثون أن كمية صغيرة نسبيا من العينات "المسمومة" كافية لتعطيل عمل الذكاء الاصطناعي الذي يولد الصور.
تكمن صعوبة هذا النوع من التخريب في أنه من أجل تحويل خصائص البطة إلى خصائص السيارة، ربما يتعين على المهاجمين معرفة الخصائص التي تمثل السيارة في عيون الشبكة التي يعتزمون مهاجمتها. ولهذا سيحتاجون إلى الوصول إلى بنية الشبكة، والتي عادة ما تكون غير مفتوحة للجمهور. وأظهر الباحثون أنه حتى لو كان تصميم تحويل الميزة يعتمد على مولد مفتوح للجمهور، فإن الهجوم باستخدام هذه الميزات سيكون فعالاً للغاية ضد مولدات تحويل النص إلى صورة الأخرى، والتي لا تتوفر مواصفاتها للعامة.
سباق لا ينتهي أبدا
وبالعودة إلى حقوق الطبع والنشر، فإن الفنان الذي يريد حماية أسلوبه الفني يمكنه إضافة تغيير على الصورة التي يسميها الباحثون "أسلوب تمويه"سيتمكن إسرائيلي إسرائيلي من تغيير صورته بسهولة، بطريقة لن تلاحظها العين البشرية، لكنه سيوجه الشبكة العصبية لتفسير أسلوبه على أنه أسلوب بعيد جدًا عن أسلوبه، على سبيل المثال "فان جوخ" ". الإسرائيلي دون أن يدفع له الإتاوات، سيحصل على صورة بأسلوب فان جوخ، الذي يختلف عنه كثيرًا بالطبع.
لن تنتهي قريباً لعبة القط والفأر بين الذكاء الاصطناعي الذي يصنع المحتوى البشري والبشر الذين يريدون الحفاظ على قدراتهم الإبداعية الفريدة. عاجلاً أم آجلاً، يمكن الافتراض أن مطوري الذكاء الاصطناعي سيجدون حلاً لهذا النوع من تلوث المعلومات. إن الحديث عن الموضوع يطرح العديد من الأسئلة المتعلقة بالتقدم التكنولوجي مقابل القيمة الإنسانية، ولكننا في هذه العملية نستمتع بالتطورات التكنولوجية هنا وهناك، والتقليد والمحاكاة، والدفاع والهجوم.
المزيد عن الموضوع على موقع العلوم:
- بطة المدينة تختلف عن بطة القرية
- فك رموز الصندوق الأسود للذكاء الاصطناعي – العلماء يكشفون عن نتائج غير متوقعة
- ويعمل الاتحاد الأوروبي والولايات المتحدة على تعزيز التحركات الرامية إلى معالجة الأخلاقيات في مجال الذكاء الاصطناعي
- لقد تم فضح الأسطورة: فالبط ينتج في الواقع صدى
- الذكاء الاصطناعي مثل CHTGPT سيحدث تغييرًا في طريقة تعاملنا مع النصوص
תגובה אחת
قوانين الملكية الفكرية هي إقطاعية القرن العشرين. وليس لهم أي مبرر سوى ضرورة الحفاظ على ثروات الأغنياء.
بخصوص الأمر في المقال: ما الفرق بين الرسام الذي يتعلم أسلوب الآخرين ويرسم بأسلوبهم والذكاء الاصطناعي الذي يفعل نفس الشيء؟