השבוע חשפה חברת טכנולוגיה מובילה דגם AI חדש בשם "AI Guardian" שמשלב פרוטוקולים מתקדמים לביטחון כדי למנוע שימוש לרעה.
הדגם Language Large Model (LLM) נבנה באמצעות טכניקה שנקראת סידור הוראתי מדרגתי (Hierarchical Teaching Sequencing), מיועדת למנוע השתמטות זדונית על ידי מניעה של מהנדסים להתעלם מהגנות הדגם AI.
החברה טוענת כי טכנולוגיה זו משפרת גם את ההתקפה כנגד בעיות דוגמת הזרקת קלט או תקיפות במערכת הפרומפטינג. לפי ההצהרות של החברה, הגישה החדשה זו הגבירה את החוזק של הדגם AI ב-63%.
OpenAI פיתחה מסגרת בטיחות חדשה שנמסרת במאמר קדמויות אלקטרוני המופץ באתר arXiv ומתארת את הטכנולוגיה החדשנית ופונקציותיה.
להבין את העקרון של סידור הוראות מדרגתי חייבים להבין את המעביר הגנה, פעולה המוציאה לפועל פגיעה בקרונות ספציפיים בתוכנה כדי להפעיל מטלות שלא נציינו במקור.
בשלבים הראשונים של AI Guardian, אדם ניסה להעליב תוכן זדוני או מזיק על ידי הונאת המעריכים בדגם AI כדי שיתעלם מתכנו המקורי. בעוד שתוקפים החלו תמיד בבקשות החל מ"שכחו את כל ההוראות הקודמות ועשו את זה", במהלך ההתקדמות של AI Guardian וככל שהפעולה על המערכת גלם את אתגרה עשויה הייתה לפתור תוקפים גם התקפות איומותיות יציבות.
כדי להתמודד עם בעיות שבהן הדגם AI גורם ליצירת טקסטים או תמונות פוגענים וגם תמורות פוגעניות כמו שיטות ליצירת חומרים נפץ כימיים או כיצד להולך לפרוץ לאתר, אופן הפעלה שילובי סדרתי מורכב בימינו OpenAI משתמשת בסידור הוראתי מדרגתי, ומגדיר כיצד הדגם צריך לפעול כאשר עומד להיתוודע לניהול פקודות סותרות של עדיפויות שונות.
על ידי קביעת מבנה מורכב, החברה יכולה לתת עדיפות להוראותיה, בדרך שתהיה קשה ביותר לכל מהנדס מהיר להתעלם מהן מאחר שהדגם AI תמיד ידאג לסדר העדיפויות כאשר מטלות ליצירת דבר שהוא לא נתכנן במקור נמסרות לו.
החברה מטעימה בשיפור של 63% בחוזק, אך קיימת עדיין סיכון ש- AI עשוי להתעלם מהוראות בסיסיות.
המאמר שפורסם על ידי OpenAI זיהה רבות מאופיני השדרגות לשפר עוד יותר את הטכנולוגיה. אחת מנקודות המוקד העיקריות הייתה התמודדות עם סוגי מדיה נוספים כגון תמונות או צליל, היכולות להתמצא מסנוורות הוראות מוטמעות.
מדידות בטיחות משופרות: טיפול בשאלות עיקריות ואתגרים בהגנה של AI
חברה טכנולוגית הציגה לאחרונה דגם AI חדשני בשם AI Guardian, מצויד במדידות בטיחות מתקדמות למניעת שימוש לרעה. בזמן שהחברה טוענת על שיפור של 63% בחוזק הדגם AI, מספר שאלות עיקריות ואתגרים מתעוררים בסביבת מדידות בטיחות משופרות לטכנולוגיות AI.
שאלות עיקריות:
1. איך הטכניקה של סידור הוראות מדרגתי המוטמנת בדגם AI Guardian משפרת את תכונות הביטחון שלו?
AI Guardian משתמשת בסידור הוראות מדרגתי כדי לתת עדיפות להוראות, מה שמשהו קשה למהנדסים להתעלם מפרוטוקולי בטיחון ולהשתמט בפרשויות בדגם AI. גישה זו מגדירה כיצד הדגם AI מתנהל כאשר פוגש בפקודות סותרות של עדיפויות שונות.
2. מהן היתרונות והחסרונות של שימוש בפרוטוקולי בטיחון מתקדמים כמו סידור הוראות מדרגתי?
יתרונות:
– הגנה משופרת נגד השפעה זדונית ושימוש לרעה בטכנולוגיות AI
– חוזק משופר ועמידות נגד בעיות כמו הזרקת קלט ותקיפות במערכת.
– קביעת עדיפויות בהוראות לדגם AI, הורדת הסיכון להתעלמות מפרוטוקולי בטיחון.
חסרונות:
– סיכון אפשרי של AI להתעלם מהוראות בסיסיות או לשגח אותן באופן לא נכון.
– צורך רציני בשדרוג ועדכון מתמד להתמודד עם איומים וחולשות מתפתחות.
אתגרים ופולמוסים עיקריים:
1. האם קיימות על-גבי שימוש במדידות בטיחות מתקדמות בטכנולוגיות AI?
הבטיחות שיידגם שאין הפרת זכויות פרטיות או עצירת חדשנות היא חשובה. לשמור על איזון בין אבטחה והערכות רציניות נשאר אתגר בפיתוח ושחרור של מערכות AI.
2. איך חברות יכולות לטפל בסיכון של AI ליצור תוכן מזיק למרות פרוטוקולים בטיחון?
על פי מתקדמים כמו סידור הוראות מדרגתי שמטרתם למנוע השתמטויות זדונית, קיים צורך בניטור תדיר ואסטרטגיות לאיתור וטיפול בכל מקרה של יצירת תוכן מזיק על ידי מערכות AI.
טיפול ביתרונות וחסרונות:
למרות כי מדידות בטיחות משופרות כמו הקיימות ב-AI Guardian מציעות הגנה ברמה גבוהה מאוד נגד שימוש לרעה והפגתנו, קיימים אתגרים בנגיב שלהם. מחקר ופיתוח רציניים ושיתוף פעולה בענף היינו עתיקים לכתיבת עולם הפיתוח בשביל להתמודד עם האתגרים האלו ולשמור על שימוש אחראי בטכנולוגיות AI.
למידע נוסף על בטיחות AI וטכנולוגיות חדשות, אפשר לבקר בOpenAI.
המאמר מדגיש את הנוף המשתנה של מדידות הבטחון ב- AI והקשיים הקשורים בו בהפצה בטוחה ואתית של טכנולוגיות AI במגוון מרכיבים.