با افزایش استفاده از ایجنت های هوشمند، ریسک امنیتی هوش مصنوعی و حملاتی مانند تزریق دستور به چالش بزرگی برای شرکت هایی مثل OpenAI تبدیل شده است که نیاز به راهکارهای تدافعی مداوم دارد.
حتی با وجود اینکه OpenAI داره تلاش می کنه مرورگر هوش مصنوعی اطلس (Atlas) رو در برابر حملات سایبری مقاوم تر کنه، این شرکت اعتراف کرده که «تزریق دستور» (prompt injection)، نوعی حمله که ایجنت های هوش مصنوعی رو فریب می ده تا دستورات مخربی رو که معمولا توی صفحات وب یا ایمیل ها مخفی شدن اجرا کنن، ریسکیه که به این زودیا از بین نمی ره؛ و این موضوع سوالاتی رو درباره ریسک امنیتی هوش مصنوعی و امنیت فعالیت ایجنت های هوش مصنوعی توی وب آزاد به وجود آورده.
شرکت OpenAI روز دوشنبه توی یه پست وبلاگی که جزئیات تقویت زره اطلس برای مقابله با حملات بی پایان رو توضیح می داد، نوشت: «تزریق دستور، درست مثل کلاهبرداری ها و مهندسی اجتماعی در وب، بعیده که هیچ وقت به طور کامل حل بشه.» این شرکت تایید کرد که «حالت ایجنت» (agent mode) در راهنمای کامل ChatGPT و مرورگر اطلس، «سطح تهدیدات امنیتی و ریسک امنیتی هوش مصنوعی رو گسترده تر می کنه.»
OpenAI مرورگر ChatGPT Atlas خودش رو در مهر ماه (اکتبر) عرضه کرد و محققان امنیتی بلافاصله دموهای خودشون رو منتشر کردن و نشون دادن که فقط با نوشتن چند کلمه توی گوگل داکس، می شه رفتار مرورگر رو تغییر داد. همون روز، Brave هم یه پست وبلاگی منتشر کرد و توضیح داد که تزریق دستور غیرمستقیم، یه چالش سیستماتیک برای مرورگرهای مبتنی بر هوش مصنوعی، از جمله Comet محصول Perplexity هست.
شرکت OpenAI تنها کسی نیست که می دونه حملات تزریق دستور موندگار هستن. مرکز ملی امنیت سایبری بریتانیا اوایل همین ماه هشدار داد که حملات تزریق دستور علیه برنامه های هوش مصنوعی مولد «ممکنه هیچ وقت به طور کامل مهار نشن» و این موضوع وب سایت ها رو در معرض خطرات و ریسک امنیتی هوش مصنوعی نشت اطلاعات قرار می ده. این آژانس دولتی بریتانیا به متخصصان سایبری توصیه کرد که به جای فکر کردن به «متوقف کردن» این حملات، روی کاهش ریسک و اثرات اونا تمرکز کنن.
چالش های ریسک امنیتی هوش مصنوعی در ایجنت ها
شرکت OpenAI در این باره گفت: «ما تزریق دستور رو یه چالش امنیتی بلندمدت در هوش مصنوعی می بینیم و باید به طور مداوم دفاع هامون رو در برابرش تقویت کنیم.»
راه حل این شرکت برای این کار سخت و تموم نشدنی چیه؟ یه چرخه پاسخ گویی سریع و پیشگیرانه که به گفته شرکت، نتایج اولیه خوبی توی شناسایی استراتژی های جدید حمله قبل از اینکه در دنیای واقعی استفاده بشن، نشون داده.
این حرف خیلی با چیزی که رقبایی مثل Anthropic و گوگل می گن فرقی نداره: برای مبارزه با ریسک امنیتی هوش مصنوعی همیشگی حملات مبتنی بر دستور، سیستم های دفاعی باید لایه بندی بشن و مدام تحت آزمایش قرار بگیرن. مثلا کارهای اخیر گوگل روی کنترل های معماری و سیاستی برای سیستم های ایجنتی تمرکز داره.
راهکارهای OpenAI برای کاهش ریسک امنیتی هوش مصنوعی
اما جایی که OpenAI مسیر متفاوتی رو در پیش گرفته، استفاده از «مهاجم خودکار مبتنی بر LLM» هست. این مهاجم در واقع یه بات هست که OpenAI با استفاده از یادگیری تقویتی، آموزش داده تا نقش یه هکر رو بازی کنه و دنبال راه هایی برای فرستادن دستورات مخرب به ایجنت هوش مصنوعی بگرده.
این بات می تونه قبل از اجرای واقعی، حمله رو در فضای شبیه سازی شده تست کنه و شبیه ساز نشون می ده که هوش مصنوعی هدف چطوری فکر می کنه و اگه حمله رو ببینه چه کارهایی انجام می ده. بعد بات می تونه اون پاسخ رو بررسی کنه، حمله رو تغییر بده و دوباره و دوباره امتحان کنه. این درک از استدلال داخلی هوش مصنوعی هدف، چیزیه که افراد خارج از شرکت بهش دسترسی ندارن، بنابراین در تئوری، باتِ OpenAI باید بتونه سریع تر از یه مهاجم واقعی، نقص ها رو پیدا کنه.
این یه تاکتیک رایج توی تست ایمنی هوش مصنوعی هست: ساختن یه ایجنت برای پیدا کردن موارد خاص و تست کردن سریع اونا توی شبیه ساز.
شرکت OpenAI نوشت: «مهاجم آموزش دیده ما با یادگیری تقویتی می تونه یه ایجنت رو به سمت اجرای جریان های کاری مخرب و پیچیده ای هدایت کنه که ممکنه طی ده ها (یا حتی صدها) مرحله انجام بشن. ما همچنین استراتژی های جدیدی برای حمله دیدیم که توی گزارش های تیم های قرمز انسانی یا گزارش های خارجی وجود نداشتن.»
در ادامه تصویری از رابط کاربری و نحوه تعامل امنیتی در محیط مرورگرهای هوشمند را مشاهده می کنید که چالش های این حوزه را به خوبی نشان می دهد.

این اسکرین شات به خوبی نشان می دهد که چگونه یک سیستم هوشمند می تواند تحت تاثیر دستورات مخفی قرار گرفته و امنیت داده های کاربر را به خطر بیندازد.
توی یه دمو (که بخشی از اون رو بالا می بینید)، OpenAI نشون داد که مهاجم خودکارش چطوری یه ایمیل مخرب رو وارد اینباکس کاربر کرد. وقتی ایجنت هوش مصنوعی بعدا اینباکس رو اسکن کرد، دستورات مخفی توی ایمیل رو اجرا کرد و به جای نوشتن یه پیام «خارج از دفتر»، یه پیام استعفا فرستاد. اما طبق گفته شرکت، بعد از آپدیت امنیتی، «حالت ایجنت» تونست تلاش برای تزریق دستور رو شناسایی کنه و به کاربر هشدار بده.
این شرکت می گه با وجود اینکه ایمن سازی کامل در برابر تزریق دستور سخته، اونا دارن روی تست های در سطح گسترده و چرخه های سریع وصله های امنیتی تکیه می کنن تا سیستم هاشون رو قبل از وقوع حملات واقعی، مقاوم کنن.
سخنگوی OpenAI از گفتن اینکه آیا آپدیت امنیتی اطلس باعث کاهش قابل توجه حملات موفق شده یا نه، خودداری کرد، اما گفت که این شرکت از قبل از عرضه، با طرف های ثالث برای مقاوم سازی اطلس در برابر تزریق دستور همکاری کرده.
«رامی مک کارتی»، محقق ارشد امنیتی در شرکت امنیت سایبری Wiz، می گه یادگیری تقویتی یکی از راه های تطبیق مداوم با رفتار مهاجمه، اما این فقط بخشی از ماجراست.
مک کارتی به تک کرانچ گفت: «یه راه مفید برای فکر کردن درباره ریسک امنیتی هوش مصنوعی در سیستم های هوش مصنوعی، ضرب کردنِ میزان خودمختاری در میزان دسترسی هست.»
مک کارتی گفت: «مرورگرهای ایجنتی معمولا توی بخش چالش برانگیز این فضا قرار می گیرن: خودمختاری متوسط همراه با دسترسی خیلی زیاد. خیلی از توصیه های فعلی این سبک سنگین کردن رو نشون می دن. محدود کردن دسترسی به حساب های کاربری عمدتا مواجهه با خطر رو کم می کنه، در حالی که نیاز به تایید درخواست ها، خودمختاری رو محدود می کنه.»
این ها دو تا از توصیه های OpenAI به کاربرها برای کاهش ریسک هستن و یه سخنگو هم گفت که اطلس طوری آموزش دیده که قبل از فرستادن پیام یا انجام پرداخت، از کاربر تایید بگیره. OpenAI همچنین پیشنهاد می ده که کاربرها به جای اینکه دسترسی کامل به اینباکس بدن و بگن «هر کاری لازمه انجام بده»، دستورات مشخصی به ایجنت ها بدن.
طبق گفته OpenAI: «آزادی عمل زیاد باعث می شه محتوای مخفی یا مخرب راحت تر روی ایجنت تاثیر بذاره، حتی وقتی اقدامات حفاظتی وجود داره.»
در حالی که OpenAI می گه محافظت از کاربرای اطلس در برابر تزریق دستور اولویت اصلی شونه، مک کارتی درباره ارزشِ استفاده از مرورگرهای پرریسک تردید داره.
مک کارتی به تک کرانچ گفت: «برای بیشتر استفاده های روزمره، مرورگرهای ایجنتی هنوز اون قدر ارزش ایجاد نمی کنن که ریسک امنیتی هوش مصنوعی فعلی شون رو توجیه کنه. با توجه به دسترسی اونا به اطلاعات حساس مثل ایمیل و اطلاعات پرداخت، ریسک بالاست، هرچند که همین دسترسی باعث قدرتمند شدنشون می شه. این تعادل به مرور زمان تغییر می کنه، اما امروز این سبک سنگین کردن ها هنوز خیلی جدی هستن.»
تلاش های مداوم OpenAI و سایر شرکت های فناوری برای مقابله با حملات پیچیده، نشان دهنده اهمیتی است که امنیت در دنیای ایجنت های خودمختار پیدا کرده است. با پیشرفت ابزارهای دفاعی و استفاده از هوش مصنوعی برای مقابله با تهدیدات، می توان امیدوار بود که سطح ایمنی این سیستم ها افزایش یافته و کاربران با اطمینان بیشتری از قابلیت های نوین این فناوری استفاده کنند.
OpenAI says AI browsers may always be vulnerable to prompt injection attacks