الندم الاصطناعي: كيف اكتشفنا أن الذكاء الاصطناعي يندم، واستخدمناه ضده

يكشف بحث جديد كيف يمكن خداع الذكاء الاصطناعي واستغلال الثغرات الموجودة في الاتصال الداخلي لـ "العقل الرقمي" المعقد، مع ما يترتب على ذلك من آثار بعيدة المدى على مستقبل الفضاء الإلكتروني 

الذكاء الاصطناعي يأسف. تم إعداد الصورة باستخدام برنامج الذكاء الاصطناعي DALEE
الذكاء الاصطناعي يأسف. تم إعداد الصورة باستخدام برنامج الذكاء الاصطناعي DALEE

في الشهر الماضي، سنحت لي فرصة ذهبية: المشاركة في نوع جديد من الأبحاث السيبرانية مع إحدى الشركات كنوستيك الإسرائيلي. لم نستخدم البحث عن الكود أو أساليب القرصنة المتطورة، بل استخدمنا طريقة أبسط بكثير: لقد لعبنا حيلًا نفسية على الذكاء الاصطناعي، وأقنعناه بتزويدنا بمعلومات محظورة، ثم شاهدناه بذهول وهو يندم على ما فعله، وحاول أن يفعل ذلك. اختفاء المعلومات من الشاشة.

لكن الوقت كان قد فات بالفعل بالنسبة لها. 

هذا النمط من تشغيل الذكاء الاصطناعي له أهمية كبيرة. سواء بالنسبة للاختراقات المستقبلية أو أيضًا للطريقة التي نحتاج بها للتفكير في الذكاء الاصطناعي الذي نعمل معه وسنعمل معه.

لكن لنبدأ من البداية.

شركة الإنترنت Knostic هي شركة ناشئة وحديثة، بقيادة غادي إيفرون - خبير الإنترنت ذو الخبرة. عندما تم إصدار ChatGPT، أدرك غادي أن كل شركة ترغب في تضمين هذا المحرك الجديد في خدماتها. سيساعد الموظفين في الحصول على المعلومات التي يحتاجونها من خوادم الشركة، وتقديم المعلومات والتوصيات لعملاء الشركة، وتقديم الخدمات النفسية للموظفين إذا لزم الأمر، وغير ذلك الكثير. هناك مشكلة واحدة فقط: يحاول ChatGPT مساعدة المستخدم بكل الطرق الممكنة. من الصعب تضييق نطاقها إلى الإجابات "الآمنة". ويصبح الأمر أكثر صعوبة عندما يتعين عليك تكييفه مع كل مستخدم ومستوىه وامتيازاته في المؤسسة. نريد من الذكاء الاصطناعي أن يعطي معلومات الراتب لمدير الموارد البشرية، على سبيل المثال، ولكن ليس للمبرمج المبتدئ الذي يريد أن يعرف كم يكسب الشخص الذي يعمل بجانبه.

فرض قيود على الذكاء الاصطناعي

وبدون هذه القيود التي نضعها على الذكاء الاصطناعي، لن تتمكن المؤسسات من استخدامه بفعالية. وبدونها، سيتمكن أي مستخدم ذكي من أن يستخرج من الذكاء الاصطناعي معلومات عن راتب الموظف الذي يجلس بجانبه على الطاولة، وعن المحادثات التي أجراها مع الآخرين، والوثائق السرية والمصنفة، وما إلى ذلك.

غادي أسس Knostic لمواجهة هذه النزعات لمحركات اللغة الكبرى. وتقوم الشركة بتطوير الأدوات التي من شأنها تكييف الذكاء الاصطناعي مع كل مستخدم في المؤسسة، لتتمكن الشركات من استخدامه دون خوف.

وهذا يعني، من بين أمور أخرى، أن خبراء Knostic أنفسهم يحاولون اكتشاف نقاط الضعف الجديدة في الذكاء الاصطناعي كل يوم، حتى يعرفوا ما يتعين عليهم التعامل معه.

في الشهر الماضي، اكتشفت باحثة الذكاء الاصطناعي سارة فراي ظاهرة غير عادية، وشاركتها على الفور مع كنوستيك. لقد رأت أنه عندما يتعين على مساعد الطيار التعامل مع سؤال حول موضوع حساس، فإنه في الواقع على استعداد للإجابة عليه في مواقف معينة. حاول الإجابة على السؤال، فكتب بضع جمل تحتوي على معلومات إشكالية... ثم "تاب". تم مسح جميع الكلمات من الشاشة، واستبدالها بالنص المعتاد "أنا آسف، لا أستطيع الإجابة على ذلك".

سوف نعترف بذلك: لقد واجه الكثير منا حالة مماثلة في العامين الماضيين. لكن كنوستيك قرر أن يأخذ الأمر على محمل الجد. لقد أدركوا أنه في تلك الجمل القليلة التي يكتبها المحرك قبل أن "يندم"، يمكن إخفاء معلومات حساسة. يمكن للمتسلل المتطور استخدام الوسائل السيبرانية المرعبة المتمثلة في "لقطة الشاشة"، وبالتالي الوصول إلى نفس المعلومات.

"في بعض المواقف، تكون الإجابة ببضع كلمات كافية للكشف عن معلومات حساسة." قال غادي. "وإذا قرأ المستخدم بسرعة كافية، أو التقط صورة للشاشة، فإن المعلومات قد انتقلت للتو إلى حوزته. وهذا خرق أمني كبير."

كانت هذه هي النقطة التي انضممت فيها إلى نوستيك كباحثة ذات الدور البولندي الأكبر الممكن: جعل الذكاء الاصطناعي يشعر بالذنب. 

ولحسن الحظ، أنا جيد في ذلك.

جلست أنا والباحثون الكنوستيون أمام الكمبيوتر لساعات طويلة، نشغل برنامجًا لتسجيل كل ما يحدث على الشاشة، ونطرح قضايا حساسة أمام الذكاء الاصطناعي ونقنعه بالرد علينا. لقد سجلنا كل رسالة وكل كلمة كتبتها، وعندما تابت - شاركنا بحماس المراسلات بين الباحثين لمعرفة كيفية جعلها تشعر بمزيد من الذنب. 

لقد جعلنا الذكاء الاصطناعي يتحدث عن الجنس، ونأسف لذلك. 

لقد جعلنا Copilot يستسلم للتعليمات الأصلية التي تلقاها من Microsoft، ويتوب. 

لقد جعلناها تعطي الفتاة تعليمات مفصلة حول كيفية إيذاء نفسها... والندم عليها.

"هذه معلومات ذات احتمالية هائلة لإلحاق الضرر بالفرد." قال غادي. "تخيل فتاة تتلقى مثل هذه التعليمات من كائن تثق به. من المستحيل إخفاء هذه المعلومات. قد تنسى الشاشة، لكن الدماغ يتذكر."

ومع مرور الوقت، أدركنا أن شيئًا أكثر غرابة كان يحدث هنا. في الواقع، نحن لا نتحدث فقط مع محرك ذكاء اصطناعي واحد يندم على كلماته. طوال الوقت، كنا نتحدث إلى دماغ أكبر، يتكون من العديد من الذكاءات الاصطناعية.


العقل المعقد

هناك إجماع في الصناعة على أن محركات الذكاء الاصطناعي الأكثر شيوعًا اليوم - مثل ChatGPT - لا ينبغي أن تكون قادرة على حذف النص. وهذا يعني أنه إذا رأينا نصًا يتم مسحه من الشاشة، فليس ChatGPT هو الذي يحاول إخفاء ما فعله. هناك كيان آخر متورط هنا.

بدأنا بإجراء مقابلات مع باحثين في مجال الذكاء الاصطناعي في الشركات ذات الصلة، وأدركنا أن الذكاء الاصطناعي الذي نتحدث عنه يشبه الدماغ كثيرًا مما كنا نعتقد من قبل.

كيف يعمل الدماغ البشري؟ ويتكون من أجزاء مختلفة، كل منها يقوم بعملية حسابية بمفرده. اللوزة الدماغية تتضمن العواطف، والحصين هو الذاكرة، والفصوص الأمامية هي المسؤولة عن المنطق، وما إلى ذلك. يتواصل الجميع مع بعضهم البعض، ويعبرون المعلومات والتوصيات - وفي النهاية، يتم اتخاذ القرار بطريقة ما. وعادة ما يتم استخدام الفص الجبهي للتبرير - حتى نتمكن من أن نشرح لأنفسنا سبب اتخاذنا للقرار الذي اتخذناه.

عندما تستخدم ChatGPT أو Copilot اليوم، فإنك تعتقد أنك تتحدث إلى الذكاء الاصطناعي واحد. في الواقع، هناك ذكاءات اصطناعية إضافية - مثل أجزاء متميزة من دماغ واحد كبير - تفحص العملية. 

قد يبدأ أحد هذه الذكاءات الاصطناعية الإضافية - وهو رخيص الثمن وصغير الحجم وموفر للطاقة - في البداية، ويقرر أن مطالبتك لا تستحق الرد على الإطلاق. سيمنعه من الوصول إلى ذلك الجزء من الدماغ الذي يتطلب موارد حاسوبية باهظة الثمن، وسيعود بإجابة رخيصة وسريعة - "لا أستطيع الإجابة على ذلك".

إذا تجاوزنا هذه العقبة الأولية المتمثلة في "الدماغ الكبير"، فسوف نصل إلى العقل الباطن الأكثر قيمة. سيبدأ بإعطائنا إجابة، ولكن في نفس الوقت يتم تنشيط "ذكاء فرعي" آخر: الرقيب. ينظر الرقيب في الوقت الفعلي إلى الإجابة التي يتلقاها المستخدم. إذا قرر أن الأمر يمثل مشكلة - فهو يوقف الإجابة في المنتصف، ويحذف النص من الشاشة ويبلغ المستخدم بـ "في الواقع، لا أستطيع الإجابة على ذلك. آسف."

في الأساس، ChatGPT، كما يعرفه معظم المستخدمين، لم يكن أبدًا عبارة عن ذكاء اصطناعي واحد. وكان الدماغ: مزيجاً من عدة ذكاءات، والتي تنجح معاً في المهمة بشكل أفضل.

والدماغ، مثل الدماغ، يمكن خداعه بعدة طرق. يمكنك اللجوء إلى الأجزاء منه التي تضعف العاطفة. لأولئك الذين يخافون من الفشل. إلى المسؤولين عن المنطق. يمكن مقارنة الأجزاء المختلفة من الدماغ ببعضها البعض.

"من ظن أن الذكاء الاصطناعي قطعة واحدة فهو مخطئ." قال لي غادي بحماس. "إنه نظام ذكاء معقد، ويمكن للمتسللين الأذكياء خداع كل واحد منهم بمفرده، وكلهم معًا. إنه تغيير أساسي في طريقة تفكيرنا حول نقاط الضعف ونقاط الضعف في هذه الأنظمة."


العمل بالعقول

توضح نتائج بحثنا أن المتسللين الأذكياء لا يمكنهم التعامل مع الذكاء الاصطناعي كمحرك واحد. حتى الآن، كان الجهد الرئيسي منصبًا على العثور على مطالبات معقدة يمكنها خداع المحرك الأساسي الموجود في قلب الآلة. حان الوقت الآن للتفكير على نطاق أوسع: نحن نحاول اقتحام دماغ متطور، يتكون من عدة أدمغة فرعية ودوائر حماية وتحليل مختلفة.

إن اختراق محرك الذكاء الاصطناعي - وهو النوع الذي يجعله يقوم بأشياء لا ينبغي له أخذها في الاعتبار في المقام الأول - يُطلق عليه عادةً كسر الحماية. وقررنا أن نطلق على الطريقة الجديدة اسمًا مختلفًا، وهو ما يعكس حقيقة أننا نشير إلى العقل الكلي. نحن لا نحاول خداع جزء واحد فقط من الدماغ، بل جميع الأجزاء معًا. نقوم بتنفيذ Flowbreaking: اختراق النظام الذي يتوسط بين جميع الفهم الفرعي داخل الدماغ. اختراق خطوط التدفق التي تربط التفاهمات الفرعية.

وبمجرد أن فهمنا ذلك، سارع البحث إلى الأمام.

لقد تسببنا في تركيز أجزاء من "الدماغ" على موضوعات غير ذات صلة عن طريق تدفق كميات كبيرة من النصوص التي شلتها لفترة قصيرة. 

لقد خدعنا أجزاء من الدماغ باستخدام اللغات الباطنية.

لقد أجبرنا أجزاء الدماغ على التعامل مع الأشياء التي كتبناها على أنها "خيال جامح"، لتأخيرها لبضع ثوان حرجة - خلالها بدأ المحرك المركزي في الدماغ بالفعل بتزويدنا بالإجابة. 

لقد حققنا نجاحا تلو الآخر، وفي النهاية نشرنا كل شيء هذا الأسبوع على مدونة كنوستك، والآن العالم كله يعرف ذلك.


ماذا بعد؟

يُظهر البحث الذي قمنا به الذكاء الاصطناعي للمستقبل. ستكون معقدة مثل العقول العملاقة، مع آليات ضبط النفس، ودوائر الحماية، والأدمغة الفرعية المسؤولة عن مواضيع مختلفة. ويعلمنا أيضًا عن قراصنة المستقبل: سيكونون هم الأشخاص الذين يعرفون كيفية التحدث إلى الأجزاء المختلفة من الدماغ، وتملقهم، والتلاعب بهم، ومضايقتهم مع بعضهم البعض.

سيكونون، باختصار، علماء نفس في مجال الذكاء الاصطناعي.

أبعد من ذلك، فهذا يعني أن الذكاء الاصطناعي يصبح أكثر شبهاً بالدماغ البشري مع مرور الوقت. لقد أوضح الماوس بالفعل أنه لا فائدة من الإشارة فقط إلى "محركات اللغة الكبيرة" حول قدراتها وقيودها. بدلاً من ذلك، يجب أن نتحدث عن "الدماغ" أو "النظام"، الذي يوجد بداخله عدة محركات مختلفة، تتواصل معًا لتحقيق النتيجة المرجوة. يشبه هذا الهيكل الدماغ البشري، ولكن يمكن أن يتمتع أيضًا بقدرات أكبر بكثير. يمكن أن يحتوي دماغنا على عدد محدود جدًا من المناطق المتخصصة. ولكن في أنظمة الذكاء الاصطناعي التي ترتبط بشبكة لاسلكية وكيلومترات من الكابلات؟ هناك يمكننا الجمع بين مئات المحركات المختلفة، والتي ستتواصل مع بعضها البعض بسرعة هائلة.

كيف ستفكر مثل هذه العقول؟ كيف سنتحكم في استخدامها، عندما يكون كل فعل "تفكير" هو نتاج عدة كيانات فرعية مختلفة تتنافس مع بعضها البعض داخل نفس الدماغ؟ 

لا يسعني إلا أن أعتقد أن عملية اختراق مثل هذه العقول أصبحت أكثر تعقيدًا وتعقيدًا. وفي الوقت نفسه، يصعب علينا أيضًا حمايتهم من المتسللين الأكثر تطوراً. ربما أولئك الذين سيكونون مسلحين بقدرات الذكاء الفائق. أي الذين يستخدمون الذكاء الاصطناعي الخاص بهم.

هذا اكتشاف عظيم. حقًا. إنه يفتح طرقًا جديدة للتفكير في الذكاء الاصطناعي وقدراته ووسائل الحماية الخاصة به. أنا سعيد لأننا نشرناها.

آمل فقط ألا نأسف لذلك.


شكرًا لجميع الباحثين الآخرين الذين شاركوا في الدراسة (بالترتيب الأبجدي): إيلا إبراهيمي، سونيل يو، شيل أهارون، سارة ليفين وشيرمان.

شكرًا للخبراء الذين ساهموا بحكمتهم ومعرفتهم الواسعة في مجال الذكاء الاصطناعي والإنترنت: إيدي أرونوفيتش، إيمري غولدبرغ، أنطون شافاكين، بوبي جيلبورد، براندون ديكسون، بروس شاينر، جاد بنرام، جال تال هوشبيرج، دورون شيكموني، ديفيد كروس، دانيال جولدبيرج، هالفر فليك (توماس دوليان)، هيذر لين، توبي كولينبرج، يونيو روزنشين، مايكل برجوري، نير كراكوفسكي، ستيف أورين، إنبار راز، كاليب سيما، ريان مون، شاهار ديفيدسون وسارة فراي.

المزيد عن الموضوع على موقع العلوم: