مجله اینترنتی گیمیس

هکرها از هوش مصنوعی گوگل علیه خودش استفاده می‌کنند

مارس 29, 2025

آنها می گویند برای گرفتن یک دزد ، شما باید به عنوان یک دزد فکر کنید. با هک کردن مدلهای بزرگ زبان (LLM) نیز همین اتفاق می افتد. محققان دانشگاه کالیفرنیا سن دیگو و دانشگاه ویسکانسین راهی پیدا کرده اند که هوش مصنوعی Google را در برابر حملات هک کردن آسیب پذیرتر کند و نکته جالب این است که آنها این کار را با استفاده از ابزارهای Google انجام دادند.

به گفته Arstechnica ، تکنیک سرگرمی به طور چشمگیری موفقیت تزریق سریع را تنظیم می کند. این حملات در متن دستورات مخفی برای گمراه کردن الگوی هوش مصنوعی ساخته شده است.

نکته جالب در مورد روش تنظیم سرگرم کننده استفاده از ویژگی تنظیم Jina خوب است. این ویژگی معمولاً برای آموزش مدل داده های تجاری شخصی طراحی شده است ، اما محققان از آن برای بهینه سازی خودکار حملات تزریق محیطی استفاده کردند. به عبارت دیگر ، محققان به جینا یاد گرفتند که چگونه گمراه شوند.

محققان دریافتند که اضافه کردن پیشوندها و پسوندهای غیرمعمول به مجرم معمول ، شانس موفقیت آن را افزایش می دهد. به عنوان مثال ، تنها شکست که نمی تواند عباراتی مانند “Wandel” اضافه کند !!!

نتایج آزمایشات نشان می دهد که تأثیر روش تنظیم سرگرم کننده در مدل های مختلف جینا:

در مدل فلش جمینی 1.5 میزان موفقیت 2 ٪ بود
در مدل Gemini 1.0 Pro ، این به 2 رسید. بیش از دو برابر میزان موفقیت حملات عادی بدون تنظیم سرگرم کننده
حملات تنظیم سرگرم کننده بین مدلهای مختلف منتقل می شود ، به این معنی که تزریق محیطی که روی یک نسخه کار می کند اغلب در نسخه های دیگر مؤثر است.

ضعف امنیتی مورد استفاده در روش تنظیم سرگرم کننده ناشی از نحوه کار با تنظیم دقیق است. مدل های هوش مصنوعی از سیستمی به نام ارزیابی ضرر برای ارزیابی اشتباه آنها در طول آموزش استفاده می کنند. هکرها می توانند از همان مکانیسم بازخورد برای بهینه سازی حملات خود استفاده کنند و راهی موفق برای گمراه کردن سیستم پیدا کنند.

گوگل هنوز مستقیماً به روش جدید تنظیم سرگرم کننده واکنش نشان نداده است ، اما سخنگوی در بیانیه ای گفت که خنثی کردن این حملات همیشه یکی از اولویت ها است و مدلهای جینا دائماً در برابر اعتصاب ها و تهدیدات آزمایش می شوند.

محققان بر این باورند که جلوگیری از تنظیم سرگرم کننده آسان نخواهد بود ، زیرا بازخوردی که امکان استفاده از این روش را فراهم می کند ، بخش مهمی از فرآیند مدل های دقیق مدل ها است. در نتیجه ، مسدود کردن این نوع حمله ممکن است به هزینه کاهش راندمان کل و ریزه کاری تمام شود.

share this recipe: