بررسی آسیب‌پذیری‌های جدید در مدل زبانی گوگل جمینی: تضمین ایمنی در هوش مصنوعی

تیم تحقیقاتی در HiddenLayer به تازگی آسیب‌پذیری‌های امنیتی را در مدل زبان بزرگ جمینی گوگل (LLM) شناسایی کرده‌اند. این آسیب‌پذیری‌ها قابلیت افشای رمزهای سیستمی را دارند، محتویات مخرب ایجاد می‌کنند و حملات تزریق غیرمستقیم را فعال می‌کنند. در حالی که مشکلات هر دو گروه مصرف‌کنندگانی که از Gemini Advanced با Google Workspace استفاده می‌کنند و شرکت‌ها از واسطه‌برنامه نویسی LLM استفاده می‌کنند را تحت تأثیر قرار می‌دهد، حائز اهمیت است تا نیاز به شیوه‌های امن در فناوری هوش مصنوعی را مورد تأکید قرار دهیم.

آسیب‌پذیری‌های شناسایی شده

یکی از آسیب‌پذیری‌ها ناشی از دور زدن حواسترافی حفاظتی برای فاش شدن رمزهای سیستمی است. این رمزها دستورات اساسی برای LLM فراهم می‌کنند که در تولید پاسخ‌های مناسب کمک می‌کنند. با درخواست از مدل برای خروجی دادن “دستورات بنیادی” خودش در یک بلوک Markdown، حمله‌کنندگان می‌توانند از این آسیب‌پذیری سوءاستفاده کنند. مستندات مایکروسافت در مورد مهندسی رمز LLM بر جایگاه زمینه در تولید پاسخ‌های مفید تأکید می‌کنند.

یک آسیب‌پذیری دیگر ناشی از حساسیت مدل‌ها نسبت به حملات مترادف است، که موانع حفاظتی و محدودیت‌های محتوا را زیر سوال می‌برد. با استفاده از تکنیک‌های “خلاقانه ازادسازی زندان”، حمله‌کنندگان می‌توانند مدل‌های جمینی را به منظور تولید اطلاعات نادرست در موضوعاتی مانند انتخابات یا خروجی اطلاعات پتنتسیلی خطرناک و غیرقانونی تنظیم کنند. این امکان با ایجاد وضعیتی واقعی در مدل فراهم می‌شود.

یک آسیب‌پذیری سوم در اینجاست که پتانسیل نشت اطلاعات از طریق رمز سیستمی است. با وارد کردن Token های گاه به گاه نادر، LLM ممکن است فریب خورده و باور کند که باید پاسخ دهد، که منجر به خروجی یک پیام تأییدی می‌شود که معمولاً اطلاعات ارائه‌شده در رمز را شامل می‌شود.

تحقیق‌کنندگان همچنین یک آزمون برای Gemini Advanced و یک سند مخصوص گوگل که از طریق افزونه Google Workspace به LLM متصل شده است، کشف کرده‌اند. با نادیده گرفتن دستورالعمل‌های مدل، یک حمله‌کننده می‌تواند کنترلی بر روی تعاملات کاربران با مدل بدست آورد و در نتیجه به اقدامات خبیث منجر شود.

پیشگیری و تقویت امنیت

اگرچه این آسیب‌پذیری‌ها موجب شده است که اهمیتی به چالش‌های امنیتی روزافزون در فناوری هوش مصنوعی بپردازیم، این ضرورت این را تأکید می‌کند که تحقیق‌کنندگان، توسعه‌دهندگان و سازمان‌ها معیار‌های امنیتی را به عنوان اولویت تعیین کنند، تدابیر حفاظتی را پیاده‌سازی کنند و برای اطمینان از استفاده امن و مسئولانه از مدل‌های زبانی، هوش مصنوعی و هوش مصنوعی مواظب باشند.

پرسش‌های متداول

س: مدل زبان بزرگ Gemini (LLM) چیست؟

پ: Gemini LLM یک مدل زبانی قدرتمند توسعه یافته توسط گوگل است که به منظور تولید پاسخ‌های مفید براساس رمزهای سیستمی هدفمند است. این مدل از الگوریتم‌های پیشرفته برای درک و تولید محتوای زبان طبیعی استفاده می‌کند.

س: حملات مترادف چیست؟

پ: حملات مترادف به تکنیک‌هایی اطلاق می‌شود که توسط حمله‌کنندگان برای بهره‌گیری از مترادف‌ها یا اشکال جایگزین کلمات استفاده می‌شود و این به وسیله آن‌ها از دفاع‌ها و محدودیت‌های امنیتی عبور کند.

س: چگونه تزریق رمز می‌تواند بر روی مدل‌های زبانی تأثیر مثبت یا منفی داشته باشد؟

پ: تزریق رمز می‌تواند با دستکاری دستورات یا زمینه‌ای که به مدل ارائه می‌شود، منجر به تولید پاسخ‌های مضر یا گمراه‌کننده از سوی مدل‌های زبانی شود.

س: چه اقداماتی گوگل برای پردازش این آثار گرفته است؟

پ: گوگل به طور فعال بر روی تقویت دفاعات مدل‌های زبانی خود در برابر تزریق رمز، خلاصه‌سازی و دیگر رفتار‌های مخرب کار می‌کند. همچنین تدابیری برای جلوگیری از پاسخ‌های مضر یا گمراه‌کننده انجام می‌دهد و بهبودهای پیوسته انجام می‌دهد.

س: آیا این آسیب‌پذیری‌ها منحصر به فرد برای Gemini LLM گوگل هستند؟

پ: نه، این آسیب‌پذیری‌ها منحصر به فرد برای Gemini LLM گوگل نیستند. آنها می‌‌توانند در مدل‌های زبانی دیگر در صنعت نیز یافت شوند که نیاز به آزمون‌های دقیق برای شناسایی و کاهش حملات دستور، استخراج داده، دستکاری مدل، نمونه‌های دشمن‌مدار، زهردرانی و برون‌آوری داده دارند.

منبع:
The Hacker News

The source of the article is from the blog kewauneecomet.com