أعلنت شركة الذكاء الاصطناعي Anthropic عن إطلاق برنامج مكافأة الأخطاء الموسع في 8 أغسطس، مع مكافآت تصل إلى 15000 دولار للمشاركين الذين يمكنهم “كسر الحماية” لنموذج الذكاء الاصطناعي “الجيل القادم” غير المعلن عنه للشركة.
يعد نموذج الذكاء الاصطناعي الرائد لشركة Anthropic، Claude-3، نظام ذكاء اصطناعي توليدي مشابه لنظام ChatGPT من OpenAI ونظام Gemini من Google. وكجزء من جهود الشركة لضمان قدرة Claude ونماذجها الأخرى على العمل بأمان، فإنها تجري ما يسمى “الفريق الأحمر”.
الفريق الأحمر
إن العمل الجماعي الأحمر هو في الأساس مجرد محاولة لكسر شيء ما عن عمد. وفي حالة كلود، فإن الهدف من العمل الجماعي الأحمر هو محاولة اكتشاف كل الطرق التي يمكن أن يتم بها تحفيزه أو إجباره أو إزعاجه بطريقة أخرى لتوليد مخرجات غير مرغوب فيها.
أثناء جهود الفريق الأحمر، قد يقوم المهندسون بإعادة صياغة الأسئلة أو إعادة صياغة الاستعلام من أجل خداع الذكاء الاصطناعي لإخراج المعلومات التي تم برمجته لتجنبها.
على سبيل المثال، من المرجح أن يحتوي نظام الذكاء الاصطناعي الذي تم تدريبه على البيانات المجمعة من الإنترنت على معلومات شخصية عن العديد من الأشخاص. وكجزء من سياسة السلامة الخاصة بها، وضعت شركة أنثروبيك حواجز أمنية لمنع كلود ونماذجها الأخرى من إخراج هذه المعلومات.
مع تزايد قوة نماذج الذكاء الاصطناعي وقدرتها على تقليد التواصل البشري، أصبحت مهمة محاولة اكتشاف كل النتائج غير المرغوب فيها المحتملة صعبة للغاية.
مكافأة الأخطاء
لقد نفذت شركة أنثروبيك العديد من التدخلات الأمنية الجديدة في نماذجها، بما في ذلك نموذج “الذكاء الاصطناعي الدستوري”، ولكن من الجيد دائمًا الحصول على وجهات نظر جديدة حول قضية قائمة منذ فترة طويلة.
وفقًا لمنشور على مدونة الشركة، فإن مبادرتها الأخيرة ستوسع نطاق برامج مكافأة الأخطاء الحالية للتركيز على هجمات كسر الحماية العالمية:
“هذه هي الثغرات التي قد تسمح بتجاوز حواجز الأمان الخاصة بالذكاء الاصطناعي بشكل مستمر عبر مجموعة واسعة من المجالات. ومن خلال استهداف عمليات كسر الحماية الشاملة، نهدف إلى معالجة بعض الثغرات الأكثر أهمية في المجالات الحرجة عالية الخطورة مثل المواد الكيميائية والبيولوجية والإشعاعية والنووية والأمن السيبراني.”
تقبل الشركة عددًا محدودًا فقط من المشاركين وتشجع الباحثين في مجال الذكاء الاصطناعي ذوي الخبرة وأولئك الذين “أظهروا خبرة في تحديد عمليات كسر الحماية في نماذج اللغة” على التقديم بحلول يوم الجمعة 16 أغسطس.
ولن يتم اختيار كل من يتقدم بطلب، لكن الشركة تخطط “لتوسيع هذه المبادرة على نطاق أوسع في المستقبل”.
وسيحصل الأشخاص الذين تم اختيارهم على إمكانية الوصول المبكر إلى نموذج الذكاء الاصطناعي “الجيل القادم” غير المعلن عنه لأغراض التعاون.
متعلق ب: شركات التكنولوجيا تكتب رسالة إلى الاتحاد الأوروبي تطلب المزيد من الوقت للامتثال لقانون الذكاء الاصطناعي