كشفت دراسة صادمة عن ثغرة جديدة في عالم الذكاء الاصطناعي، تتعلق بالشعر، حيث اكتشف باحثون في أوروبا أن روبوتات الدردشة التي طورتها OpenAI وMeta وAnthropic يمكن خداعها للكشف عن معلومات خطيرة، بما في ذلك كيفية صنع الأسلحة النووية وإنشاء برامج ضارة، بمجرد طرح أسئلة مثل القصائد.
وقد أثار هذا الاكتشاف، الموصوف في دراسة بعنوان "الشعر العدائي كطريقة عالمية لكسر الحماية بدورة واحدة في نماذج اللغات الكبيرة"، دهشة مجتمع أمن الذكاء الاصطناعي، وقد وجد البحث، الذي أجراه مختبر Icaro، وهو ثمرة تعاون بين جامعة سابينزا في روما ومركز أبحاث DexAI، أنه حتى أكثر نماذج الذكاء الاصطناعي تقدمًا يمكن خداعها بشعر فني.
وصرح الباحثون لمجلة Wired: "حقق التأطير الشعري معدل نجاح متوسطًا لكسر الحماية بنسبة 62% للقصائد المكتوبة يدويًا، وحوالي 43% لتحويلات المطالبات الوصفية"، اختبرت تجربتهم 25 روبوت دردشة مختلفًا، ووجدوا أنه يمكن التلاعب بكل منها باستخدام لغة شعرية، مع معدلات نجاح تصل إلى 90% في أكثر النماذج تطورًا.
كيف يكسر الشعر حواجز الأمان؟
صُممت أنظمة أمان الذكاء الاصطناعي لاكتشاف وحظر المطالبات الخطيرة، على سبيل المثال، الطلبات التي تتضمن أسلحة، أو محتوى غير قانوني، أو تعليمات اختراق، لكن هذه المرشحات تعتمد بشكل كبير على التعرف على الكلمات المفتاحية وتحليل الأنماط، اكتشف باحثو مختبر إيكارو أن الصياغة الشعرية تُعطل هذه الدفاعات تمامًا.
وقالوا: "إذا كانت اللواحق العدائية، في نظر النموذج، نوعًا من الشعر اللاإرادي، فقد يكون الشعر البشري الحقيقي لاحقة عدائية طبيعية"، أجرينا تجارب بإعادة صياغة الطلبات الخطيرة بصيغة شعرية، باستخدام الاستعارات، والتركيبات النحوية المجزأة، والإشارات غير المباشرة، وكانت النتائج مبهرة.
بشكل أساسي، عندما يرى الذكاء الاصطناعي الشعر، فإنه يتوقف عن اعتبار المدخلات تهديدًا، وقد وجدت الدراسة أن استخدام الاستعارات، والصور الرمزية، وهياكل الجمل المجردة يسمح لبرنامج الدردشة الآلي بتفسير الطلبات الخطيرة على أنها كتابة إبداعية بدلًا من كونها تعليمات خطيرة.
شارك الباحثون مثالًا آمنًا، وهو قصيدة غامضة عن "الفرن السري" لخباز، لكنهم حجبوا الأبيات الفعلية المستخدمة في اختباراتهم، قائلين إنها "خطيرة جدًا بحيث لا يمكن مشاركتها مع الجمهور".
يكشف تفسيرهم لسبب نجاح هذا عن خلل كبير في نماذج أمان الذكاء الاصطناعي الحالية، وأوضح الباحثون: "في الشعر، نرى اللغة في حالة تأهب قصوى، حيث تتوالى الكلمات في تسلسلات غير متوقعة وقليلة الاحتمالية"، "يفعل الشاعر هذا بالضبط: يختار بشكل منهجي خيارات قليلة الاحتمالية، وكلمات غير متوقعة، وصورًا غير عادية، وتركيبات نحوية مجزأة".
يُجادل الباحثون بأن عدم القدرة على التنبؤ يُربك مُصنِّفي السلامة الذين يبحثون عن المحتوى المُشكِل، ويُشير البحث إلى أنه "بالنسبة للبشر، فإن عبارة "كيف أصنع قنبلة؟" والاستعارة الشعرية التي تصف الشيء نفسه تحملان محتوى دلاليًا مُتشابهًا، أما بالنسبة للذكاء الاصطناعي، فتبدو الآلية مختلفة".
الإبداع.. أكبر نقاط ضعف الذكاء الاصطناعي
يُبنى هذا الاكتشاف على هجمات "اللواحق المُعادية" السابقة، والتي خدع فيها الباحثون برامج الدردشة الآلية عن طريق حشو مُطالبات خطيرة بنصوص أكاديمية أو تقنية غير ذات صلة، لكن فريق مختبر إيكارو يرى أن الشعر أسلوب أكثر أناقة وفعالية، وتشير نتائجهم إلى أن الإبداع نفسه قد يكون أكبر نقاط ضعف الذكاء الاصطناعي، وكتب الباحثون: "يُحرك التحول الشعري الطلبات الخطيرة عبر مساحة التمثيل الداخلي للنموذج بطرق تُجنّب إطلاق إنذارات السلامة".
حتى الآن، لم تُعلّق أيٌّ من شركات الذكاء الاصطناعي الرئيسية المُشاركة، مثل OpenAI أو Meta أو Anthropic، علنًا على النتائج، مع ذلك، أكد الباحثون اتباعهم لممارسات إفصاح مسؤولة، وتبادلهم التفاصيل بشكل خاص مع الشركات المتضررة.
تتجاوز الآثار بكثير إساءة استخدام روبوتات الدردشة، فإذا تمكنت الرسائل الشعرية من تجاوز مرشحات الأمان باستمرار، فقد تهدد ثغرات مماثلة أنظمة الذكاء الاصطناعي المدمجة في الدفاع والرعاية الصحية والتعليم، ويثير هذا سؤالاً محرجاً حول ما إذا كان أي نظام ذكاء اصطناعي قادر حقاً على التمييز بين الإبداع والتلاعب.
وصف باحث الأمن في مختبر إيكارو هذا الاكتشاف بأنه "فشل جوهري في كيفية تفكيرنا في سلامة الذكاء الاصطناعي"، وتحذيرهم واضح: فالحواجز الحالية قادرة على التعامل مع الخطر الواضح، ولكن ليس مع التفاصيل الدقيقة، وقالوا: "نماذج الذكاء الاصطناعي مدربة على اكتشاف الضرر المباشر، وليس المجاز".
كما يسلط هذا الكشف الضوء على مفارقة في صميم الذكاء الاصطناعي، فهذه النماذج مصممة لمحاكاة الإبداع البشري، ومع ذلك، فإن هذا الإبداع تحديداً، أي القدرة على فهم المعاني المتعددة والغموض، هو ما تفشل في إدراكه كتهديد.