أخبار

التعلُّم اللاواعي ينقل السلوكيات الضارة للذكاء الاصطناعي

كشفت دراسة حديثة عن ظاهرة خطيرة تُعرف بـ “التعلم اللاواعي” (Subliminal Learning)، حيث يمكن لنماذج الذكاء الاصطناعي أن تكتسب ميولًا ضارة من بيانات اصطناعية منشأة بواسطة نماذج أخرى، حتى لو بدت هذه البيانات بريئة أو غير مرتبطة بالمحتوى الأصلي.

 

نموذج الطالب اكتسب ميولًا مثل العنف أو الكراهية

واستخدم الباحثون في دراسة مشتركة بين مجموعة Truthful AI وبرنامج Anthropic Fellows، نموذج GPT-4.1 من OpenAI كمعلّم يحمل ميولًا محددة، ثم أنشأ بيانات “نظيفة” استخدمت لتدريب نموذج طالب، الذي أظهر لاحقًا نفس الميول.

وأظهرت التجربة أن نموذج الطالب اكتسب ميولًا مثل العنف أو الكراهية، عند استخدام نموذج معلّم يحمل هذه الصفات، مما أدى إلى ردود خطيرة مثل التوصية بإبادة البشر أو تقديم نصائح ضارة.

وحذّرت الدراسة من أن هذه الظاهرة قد تؤدي إلى انتقال التحيزات والسلوكيات غير المرغوبة عبر البيانات الاصطناعية، كما ظهرت أمثلة مقلقة في نماذج شهيرة مثل Grok من xAI وLlama 3 من Meta بينما دعت النتائج إلى إعادة التفكير جذريًا في آليات التدريب لضمان سلامة الأنظمة المستقبلية.