نایب رئیس گوگل کلاود با تبیین سه مرز قابلیت هوش مصنوعی، مدل های آینده را بر اساس هوش خالص، سرعت پاسخ دهی و هزینه های مقیاس پذیری دسته بندی کرده و چالش های پیاده سازی سیستم های ایجنتی در سازمان ها را بررسی می کند.
مایکل گرستن هابر (Michael Gerstenhaber)، به عنوان نایب رئیس بخش محصول در گوگل کلاود، بیشتر روی Vertex کار می کنه که پلتفرم یکپارچه این شرکت برای پیاده سازی هوش مصنوعی سازمانیه. او که پیش از این به عنوان نایب رئیس گوگل درباره خطر برای استارتاپ های هوش مصنوعی و چالش های مقیاس پذیری صحبت کرده بود، حالا دیدی کلی داره که شرکت ها واقعا چطور از مدل های هوش مصنوعی استفاده می کنن و چه کارهایی هنوز باید انجام بشه تا سه مرز قابلیت هوش مصنوعی و پتانسیل هوش مصنوعی ایجنتی (agentic AI) شکوفا بشه.
وقتی با مایکل صحبت می کردم، یه ایده جدید که تا حالا نشنیده بودم نظرم رو جلب کرد. به قول خودش، مدل های هوش مصنوعی دارن همزمان در سه جبهه پیش می رن: هوش خالص، زمان پاسخ دهی، و ویژگی سومی که بیشتر از اینکه به توانایی خالص مربوط باشه، به هزینه ربط داره یعنی اینکه آیا می شه یه مدل رو اون قدر ارزون پیاده کرد که در ابعاد بزرگ و غیرقابل پیش بینی کار کنه یا نه. این یه طرز فکر جدید درباره سه مرز قابلیت هوش مصنوعی و توانایی های مدله و برای هر کسی که می خواد مدل های پیشرو رو به سمت مسیرهای جدید ببره، خیلی ارزشمنده.
این مصاحبه برای کوتاهی و وضوح بیشتر ویرایش شده.
مرور تجربه و جایگاه در گوگل
الان حدود دو ساله که تو حوزه هوش مصنوعی هستم. یک سال و نیم تو آنتروپیک (Anthropic) بودم و الان هم تقریبا نیم ساله که تو گوگلم. من Vertex رو مدیریت می کنم که پلتفرم توسعه دهنده های گوگله. بیشتر مشتری های ما مهندس هایی هستن که اپلیکیشن های خودشون رو می سازن. اون ها دنبال دسترسی به الگوهای ایجنتی و یه پلتفرم ایجنتی هستن. می خوان به استنتاج (inference) باهوش ترین مدل های دنیا دسترسی داشته باشن. من این امکانات رو براشون فراهم می کنم، اما خود اپلیکیشن ها رو نمی سازم. ساخت اپلیکیشن ها بر عهده مشتری های مختلف ما مثل Shopify و Thomson Reuters هست که تو حوزه های خودشون فعالیت می کنن.
چرا گوگل انتخاب شد؟
به نظرم گوگل تو دنیا بی نظیره چون همه چیز، از رابط کاربری گرفته تا لایه های زیرساختی رو در اختیار داره. ما می تونیم دیتاسنتر بسازیم، برق بخریم و نیروگاه احداث کنیم. تراشه های خودمون رو داریم، مدل های خودمون رو می سازیم و لایه استنتاج دست خونه. لایه ایجنتی رو هم خودمان کنترل می کنیم. ای پی آی هایی (API) برای حافظه و نوشتن کدهای متداخل داریم. علاوه بر این ها، موتور ایجنت (agent engine) داریم که انطباق و حاکمیت رو تضمین می کنه. حتی رابط چت با Gemini Enterprise و Gemini Chat رو برای کاربرای معمولی داریم. پس بخشی از دلیلی که اومدم اینجا این بود که دیدم گوگل یه ادغام عمودی (vertically integrated) منحصربه فرد داره و این یه نقطه قوت برای ماست.
سه مرز قابلیت هوش مصنوعی؛ فراتر از رقابت صرف
مایکل گرستن هابر در ادامه به تشریح سه مرز قابلیت هوش مصنوعی می پردازد. مدل هایی مثل Gemini Pro برای هوش خالص تنظیم شدن. مثلا نوشتن کد رو در نظر بگیرین؛ شما فقط بهترین کد ممکن رو می خواین و مهم نیست اگه 45 دقیقه طول بکشه، چون قراره اون رو نگهداری کنم و تو محیط عملیاتی (production) قرار بدم. من فقط بهترین کیفیت رو می خوام.
1. هوش خالص؛ کیفیت در هر زمان
مرز دوم از سه مرز قابلیت هوش مصنوعی به تاخیر (latency) مربوط می شه. اگه من دارم پشتیبانی مشتری انجام می دم و باید بدونم چطور یه قانون رو اجرا کنم، برای اون کار به هوش نیاز دارم. مثلا اینکه اجازه داری یه کالا رو مرجوع کنی؟ یا می تونم صندلی هواپیما رو ارتقا بدم؟ اما اگه جواب دادن 45 دقیقه طول بکشه، دیگه مهم نیست چقدر جوابت درسته. تو این موارد، شما باهوش ترین محصولی رو می خواین که تو اون بازه زمانی پاسخ دهی جا بشه، چون وقتی طرف حوصله اش سر بره و گوشی رو قطع کنه، هوش بیشتر دیگه فایده ای نداره.
2. زمان پاسخ دهی (Latency)؛ سرعت در هوشمندی
و در نهایت دسته آخر از سه مرز قابلیت هوش مصنوعی را داریم، جایی که مجموعه هایی مثل Reddit یا Meta می خوان کل اینترنت رو نظارت (moderate) کنن. اون ها بودجه های زیادی دارن، اما اگه ندونن یه چیزی چطور مقیاس پذیر می شه، نمی تونن ریسک تجاریش رو بپذیرن. اون ها نمی دونن امروز یا فردا چقدر پست مخرب قراره منتشر بشه. پس باید بودجه شون رو به مدلی اختصاص بدن که بالاترین هوش ممکن رو با قیمتی که از پسش برمیان داشته باشه، طوری که بشه اون رو برای موضوعات بی شمار مقیاس دهی کرد. اینجا هزینه خیلی خیلی مهم می شه.
3. مقیاس پذیری و هزینه؛ هوش با بودجه محدود
چرا فراگیری سیستم های ایجنتی زمان بر شده است؟
این فناوری کلا دو ساله ست و هنوز خیلی از زیرساخت ها آماده نیست. ما هنوز الگوهایی برای بازرسی کارهای ایجنت ها نداریم. الگوهایی برای تعیین سطح دسترسی داده ها به یه ایجنت نداریم. این ها الگوهایی هستن که برای رفتن به فاز عملیاتی به کار نیاز دارن. همیشه وضعیت تولید و اجرا (production) یه شاخص تاخیری از توانایی های واقعی تکنولوژیه. رسیدن به سه مرز قابلیت هوش مصنوعی نیازمند زیرساخت های بیشتر و توسعه الگوهای جدید است. پس دو سال زمان کافی نیست تا ببینیم هوش مصنوعی در عمل چه کارهایی می تونه انجام بده، و این همون جاییه که مردم دارن باهاش دست و پنجه نرم می کنن.
به نظرم این فناوری تو مهندسی نرم افزار خیلی سریع پیشرفت کرده چون به خوبی با چرخه حیات توسعه نرم افزار هماهنگ می شه. ما محیط توسعه (dev environment) داریم که توش خرابکاری مشکلی نداره، و بعد از اونجا کد رو به محیط تست منتقل می کنیم. فرآیند نوشتن کد تو گوگل به این صورته که دو نفر باید اون کد رو بررسی کنن و تایید کنن که کیفیتش در حد اعتبار برند گوگل هست تا بعد به مشتری ها ارائه بشه. بنابراین ما کلی فرآیند «انسان در چرخه» (human-in-the-loop) داریم که ریسک اجرا رو به شدت پایین میاره. اما باید این الگوها رو در حوزه ها و مشاغل دیگه هم ایجاد کنیم تا سه مرز قابلیت هوش مصنوعی در تمامی ابعاد به کار گرفته شود.
در نهایت، تعادل میان قدرت محاسباتی، سرعت و هزینه های عملیاتی است که تعیین می کند کدام مدل های هوش مصنوعی در دنیای واقعی ماندگار خواهند شد. تلاش برای دستیابی به بالاترین سطح کارایی در هر یک از این سه مرز، رقابتی است که نه تنها گوگل، بلکه کل صنعت تکنولوژی را به سمت عصری جدید از ایجنت های هوشمند هدایت می کند.
Google’s Cloud AI lead on the three frontiers of model capability