قام الباحثون في مجال الذكاء الاصطناعي بتطوير تقنية جديدة تهدف إلى تعزيز أمان برامج الدردشة الآلية مثل ChatGPT، وتتمثل هذه التقنية في مفهوم يُعرف بـ “تجميد الخلايا العصبية”، الذي يمنع المستخدمين من التحايل على فلاتر الأمان المدخلة في نماذج اللغة الكبيرة (LLMs) المستخدمة في هذه الأدوات.
حاليًا، تُعالج نماذج اللغة الكبيرة مسألة السلامة كنتيجة ثنائية عند بدء عملية توليد الإجابة؛ فإذا اعتُبر الاستفسار آمنًا، يستمر الذكاء الاصطناعي في العمل، وإذا وُجد أنه خطير، يتم رفضه. وقد تمكن بعض المستخدمين من تجاوز هذه المراقبة من خلال تصوُّر العبارات الضارة في سياقات متنوعة. مثلاً، أظهرت دراسة سابقة أن بإمكانهم الالتفاف حول إجراءات الأمان عن طريق تحويل العبارة الضارة إلى شكل شعري.
بدلًا من اعتماد حلول فردية تتطلب إعادة تدريب أو تحديثات متكررة، تقدم الأبحاث الجديدة وسيلة لتطوير حدود أخلاقية ثابتة في نماذج اللغة الكبيرة تهدف إلى الحد من إساءة الاستخدام. تمثل إنجازات فريق من جامعة ولاية كارولينا الشمالية في تحديد “خلايا عصبية” هامة للسلامة داخل الشبكة العصبية وتجميدها، مما يسهم في الحفاظ على معايير السلامة بغض النظر عن تفسير المستخدم للمهام.
هدف الدراسة
ركز الباحثون في عملهم على تعزيز الفهم للقضايا المتعلقة بمواءمة السلامة في الأنظمة الحالية، محاولين ترسيم مسار جديد لكيفية تطبيق استراتيجيات أعمق لضمان السلامة في نماذج التعلم الموجه. وقد توصلوا إلى أن عملية “تجميد” هذه الخلايا العصبية المحددة خلال مرحلة الضبط الدقيق يمكن أن تضمن للنموذج الاحتفاظ بمعايير السلامة للنسخة الأصلية بينما يتكيف مع مهام جديدة ضمن سياقات محددة.
الفكرة الرئيسية التي قاموا بتطويرها تُشكل إطارًا مفاهيميًا يساهم في فهم التحديات المرتبطة بمواءمة السلامة في نماذج التعلم. وقد استخدموا هذا الإطار لتحديد تقنية معينة تعالج أحد هذه التحديات، وأثبتوا فعالية هذه التقنية في التطبيق. يأمل الباحثون أن يُساهم إنجازهم في وضع أساس لتطوير تقنيات جديدة تمكن نماذج الذكاء الاصطناعي من إعادة تقييم مدى سلامة استنتاجاتها بشكل مستمر أثناء توليد الردود.
تم نشر تفاصيل هذا الاكتشاف في بحث علمي، ومن المقرر تقديمه في مؤتمر دولي مختص بممثلات التعلم في الشهر المقبل في البرازيل.
