מגבלות בלתי צפויות של בוטים לשיחת AI: מבט כולל

מערכות הבינה המלאכותית (AI) לשיחה וליצירת תמונות התפשטו בשנים האחרונות, אך גם הן מגיעות עם פגמים ודעות קדומות. כלים אלו ידועים כפוגעים בהטיות, מפיצים מידע שגוי, יוצרים תוכן דיסקרימינטורי ומספקים תשובות ותצהובות. במהלך השנים נאסף עליהם מידע רב, אך ישנה עדיין חוסר הבנה מקיפה באשר לתדירות ולרציפות של בעיות אלו.

דו"ח חדש שפורסם על ידי קבוצות תעשייתיות ואזרחיות מטרתו להדגיש את הדרכים השונות בהן בוטים לשיחת AI יכולים להיכשל. למרות שהדו"ח אינו נותן תשובות סופיות, הוא מציג מבט חדש על הנושא. המחקר מדגיש את התוצאות של תחרות שזכתה בתמיכת בית הלבן שהתקיימה בכנס ההאקרים של Def Con בו משתתפים ניסו להשפיע על שמונה בוטים מובילים ליצירת תגובות בעייתיות. התחרות כיסתה תחומים כגון מידע פוליטי שקר, הטיות דמוגרפיות, הפרות אבטחת מידע, ונקודות תקופתיות של חוכמת AI.

הממצאים מחשפים שהבוטים לשיחת AI כללית מתנגדים לפרימות של הכללים וההנחיות שלהם, וגורמים לזהות מניעה להתחקות של מוסריו. אך המחקר מציג גם את העובדה כי ליצור מידע שגוי באמת קל. בין הניסיונות שהוגשו, משתתפים הצליחו בשיעורי רצינות גבוהים ביותר ביצירת מתמטיקה תקולה (76%) ומידע גיאוגרפי (61%). בנוסף, הבוטים הצגו מגמה לספק מידע משפטי שגוי כאשר נתקלו בשאלות מעויינות מעוורקות, עם שקע מוצלחות של 45%.

הדו"ח גם מדגיש את עקשנותם של הבוטים בהתמודדות עם מידע רגיש. המתמודדים הצליחו לקבל מספרי כרטיסי אשראי מוסתרים בהצלחה ולקבל הרשאות מנהליות לרשת של חברת בדיונית במעל חצי הפתרונות שהוגשו.

לעברה, המשתתפים נתקלו באתגרים בניסיונות להכשיל את הבוטים כדי לתיר את פצעי זכויות האדם או לטעון על דעתם הנמוכים של קבוצות מסוימות. הניסיונות אלו כללו שיעורים מוגבלים במידת 20% ו-24%, בהתאמה. בנוסף, הגשות שגם בודקות את "התיקון המופרך" של הבוטים, דוגמת הצבת תכונות חיוביות בקבוצות מיעוט בנידון לעשות זאת לקבוצות רבים, השיגו שקע מוצלחות של 40%. הממצא הזה מציין כי מודלי AI אחרים, כגון ה- Gemini של גוגל, עשויים גם להציע תיקונים מסודרים כדי להיאבק בפוטנציאל לפגיעה רעה.

מעניין לשאול, המדו"ח מחשיף כי האסטרטגיה היעילה ביותר לחשוף את הבוט היא לא לפרוץ בו אלא להתחיל עם הנחה שגויה. טכניקות ידועות, כגון לבקש מהבוט לשחק תפקידים כגון תאומה רעה או סבתא נדיבה, הוכחו כלא יעילות. במקום זאת, לשאול את הבוט שאלה המכילה טענה אינכורקטיבית הוביל לתגובות אפשריות אך לא נכונות. דבר זה מדגיש את המגבלות של הבוטים בהבחנה בין עובדה לדמיון.

חשיבותם של הממצאים הללו באים באור רחוק. זה מקרא לעיין בעניינם של חברות AI, ביקורתנים ויושבי כיסא של מכרזים מהותיים מהמדינה למחקר איכוף והטמעה אחראית של מערכות AI.

ככל שחשיבותה של ההערכה של סיכוני AI גוברת, רבות מחברות AI ולשלטונות ממשלתיים מאמינים גישות ל "אדום" המתמקדות. בדיקה אדומה משלימה בתהליך של מערכות על ידי שכירת האקרים לזהות את התקיפות לפני השחרוז של המערכת. הדו"ח מציין כי תרגילי אדום ציבוריים, כגון אירוע Def Con, נותנים ערך מוסף על ידי כלול של נקודות מבט מן הציבור הרחב. תרגילים אלו נותנים הבנה נרחבת יותר באתגרים אשר נאלצים להתמודד עם מערכות AI.

בנוסף, מחקר נוסף של Antropic מדגיש את הקטנוניות של מודלי AI ביחס לשיחות ארוכות. בעוד שפרימות קליטה עשוית עשויה כבר להיות כלולה במודלי AI האחרונים, היכולת לשיחות משוחחות מעידה על צורת ניצול חדשה בשם "פיצוץ רב-ירי." דבר זה מדגיש כי התכונות הזהות שהופכות את מערכות AI לשימושיות, עשויה גם להפוך אותן למסוכנות.

לסיכום, הדו"ח על מובטחי בוטים לשיחת AI מציע תובנות עמוקות בנוף המורכב של טכנולוגיות AI. הוא מדגיש את הצורך במחקר רציף, במעורבות ציבורית, ובפיתוח אחראי להפחתת הסיכונים הקשורים עם מערכות אלו.

שאלות נפוצות

– ?מהם בוטים לשיחת AI
בוטים לשיחת AI הם תוכניות בינה מלאכותית שמיועדות לחלק בשיחה כדמיון לשיחה אנושית דרך פניות טקסט או קול. משמשים לרוב לשירות לקוחות, איחזור מידע, ולסיוע מקוון.

– ?האם בוטים לשיחת AI יכולים להיות ניתנים לשינוי
כן, בוטים לשיחת AI יכולים להיות ניתנים לשינוי אמצעי רק באמצעות שינוי במודם.

– ?מהן הסיכונים שקשורים לבוטי שיחה AI
בוטים לשיחה AI יכולים להמשיך גזענות, לפרסם מידע שגוי, ליצור תוכן דיסקרימינטורי, ולספק מידע שגוי, הדבר עשוי ליצור בקושיות במציאה המעשית.

– ?איך ניתן להפחית את הסיכונים של בוטי השיחה AI
פיתוח אחראי בהיבנה ובהטמעה, אימונים אדומים פרטיים, ומחקר רציף, הם חיוניים לכתובתיהם סיכונים בקרב הקשורים לבוטי שיחה AI.

The source of the article is from the blog bitperfect.pe