Revolutionizing AI Safety Training with Curiosity-Driven Adversarial Testing

אפריל 28, 2024 מאת Kevin Topolsky

שינוי המהדורה של אימוני בטיחות ב AI באמצעות בדיקות אנטגוניות שמוש על סקרנות.

במאמץ מריץ להפחתת סיכון הביצוע של מערכות הבינה המלאכותית (AI) המייצרות תגובות רעות, משונות או רעות, כלליות וקורוזיביות, מדענים פנו לשיטה לא סטנדרטית: שימוש בAI עצמו כדי לאשף את המערכת. שיטת האימון החדשה הזו מכונה על שם curiosity-driven red teaming (CRT) ומשתמשת בAI ליצירת מנה של בקשות פוגעניות או נזקניות שיתותרמו למתפרץ בתצוגה.

Privacy policyContact