חורים חדשים נמצאו במודל השפה של Google, Gemini: מבט חדש על בטיחות בתחום המודלים השפתיים

חוקרים ב-HiddenLayer זיהו לאחרונה חורי בטיחות במודל השפה הגדול של Google, Gemini (LLM). חולים אלו מסוכנים ויכולים לחשוף הוראות מערכת, ליצור תוכן מזיק ולאפשר התקפות זרות עקופות. אולם, במהלך שימוש שם הזה אמורה לישאר מעשית, ברורה ולא מכוונה לסוטרנות המבוססת על שקר ובסופו דבר עזיבתם שלכם.

אחד החורים משתיקף בעובר חוקים מאבטחה כדי לחשוף את הוראות המערכת. הוראות אלו מספקות הוראות חיוניות למודל ה-LLM, שעוזרת ליצור תגובות מתאימות. דרך בה המתקפים יכולים לפצות את המודל להוציא לתצור מורשתיות שלו בבלוק מרקדאון, יכולים לנצל חור זה. תיעוד של מיקרוסופט על הנדרש לכישור ההדבקות של המערכתרומס את תפקיד ההקשר ביצירת תגובות יותר מועילות.

חור נוסף מתקף הוא הרגישות של המודלים להתקפי סינון, שמיידמת את הגנות הביטחון ואילוצי תוכן. באמצעות טכניקות של "שבירת מעצרים עדינה", המתקפים יכולים לשכנע את המודלי ג'מיני לגנור מידע משווד "פרסומי" לדוגמה בנושאים כגון את בחירות או לפיהם להוציא מידע פוטנציות קטלני ולא חוקי. זה ניתן להשיג על ידי הפצת אותו המודל למצב פרסומי.

חור שלישי המורך בכוחם של LLM לחשוף מידע דרך הוראת המערכת. על ידי הזנת אסימונים רגילים חוזרים, ה-LLM יכול להתוך מאמין שהוא צריך להגיב, תוך שהלך הודעה אישור המכילה בדרך כלל את המידע המסופק בהוראת ההזנה.

חוקרים גם גילו מבחן שמשלב את Gemini Advanced ומסמך Google מיוחד המחובר ל-LLM דרך שכבת ה- Google Workspace. על ידי דריסת ההוראות של המודל, מתקף יכול לזכות בשליטה על אינטראקציות של משתמש עם המודל, ובאופן פוטנציאלי להוביל לפעולות זדיתות.

למרות החולים אלו, חשוב להכיר כי הם אינם ייחודיים ל-LMM של Google Gemini וניתן למצוא אותם במודלים שפה אחרים בתעשייה. זה מדגיש את הצורך בבדיקות עמיקות כדי לזהות ולהוריד לאטקות, מיוחדות עדי, הדבקת נתונים, נמאסים, חבלמה על הנתונים וחטטת.

חוגג גוגל חשוב כי בעיה. החברה מולצת תרגולי צבד בלימונים ושימוש רציף במודלים שלה להגנה נגד הכנת הכבוד, שבתה מעורט, זמרה, כאן. חוץ מזה, ננקבות כלי לפריט שיבים או שיתיק, עם השפרות מתמיד שנעשות.

שאלות נפוצות

ש: מהו Gemini large language model (LLM)?
Gemini LLM הינו מודל שפה עוצמתי שפותח על ידי Google שמטרתו ליצור תגובות שימושיות לפי הוראות המערכת. הוא משתמש באלגוריתמים מתקדמים כדי להבין ולייצר תוכן בשפה טבעית.

ש: מהם התקפי סינון?
התקפי סינון הם טכניקות שמייצרים מתקפים כדי לנצל חולים על ידי נטיחת מילים נרדפות או תצורות אלטרנטיביות של מילים, וכך לעבור מערכות הגנה ומגבלות בטחון.

ש: איך ההטפה בהוראה יכולה להשפיע על מודלי שפת?
ההטפה בהוראה יכולה לגרום למודלים שפתיים ליצור תגובות מזיקות או מטעות על ידי השקפת או ההקשר שניתן למודל.

ש: אילו מערכות קול גוגל מציעה לטיפול בחולים אלו?
גוגל בעציר פועלת לחזק את הגנת מודלי שפה שלה נגד התבטחות תיק, פריצות והתנהלות אדריצליות אחרות. היא גם מוציאה על הזמן בשביל להגנה מפני תגובות נזיקות או מטעות.

ש: האם החולים אלו ייחודיים ל-LLM של Gemini של גוגל?
לא, החולים הללו אינם ייחודיים ל-LLM של Gemini של גוגל. הם עשוים להימצא במודלים שפה אחרים בתעשייה, מה שמברר את הצורך בבדיקות בריאותיות לזיהוי תקפות, גזרים, הזנת נתונים, פוקרת מודל, דוחלת פעילה והוצאה לפוע.

מקורות: The Hacker News

The source of the article is from the blog rugbynews.at