במאמץ מריץ להפחתת סיכון הביצוע של מערכות הבינה המלאכותית (AI) המייצרות תגובות רעות, משונות או רעות, כלליות וקורוזיביות, מדענים פנו לשיטה לא סטנדרטית: שימוש בAI עצמו כדי לאשף את המערכת. שיטת האימון החדשה הזו מכונה על שם curiosity-driven red teaming (CRT) ומשתמשת בAI ליצירת מנה של בקשות פוגעניות או נזקניות שיתותרמו למתפרץ בתצוגה.