آمازون با سرمایه گذاری گسترده در توسعه تراشه های اختصاصی، گام های بلندی در مسیر رقابت ترینیوم با انویدیا برداشته است تا هزینه های پردازش هوش مصنوعی را برای مشتریان خود کاهش دهد.
کمی بعد از اینکه اندی جاسی، مدیرعامل آمازون، معامله سرمایه گذاری خیره کننده 50 میلیارد دلاری AWS با OpenAI رو اعلام کرد، آمازون من رو به یه تور خصوصی از آزمایشگاه توسعه تراشه که قلب این معامله محسوب می شه، دعوت کرد؛ اونم (تقریبا*) با هزینه خودش.
کارشناس های صنعت دارن تراشه Trainium آمازون رو که در همین مرکز ساخته شده، زیر نظر می گیرن تا تاثیرش روی کاهش هزینه های استنتاج (inference) هوش مصنوعی و احتمالا ایجاد شکاف در انحصار ان ویدیا (Nvidia) رو بررسی کنن. این گام های نویدبخش، شروع یک رقابت ترینیوم با انویدیا در بازار هوش مصنوعی است.
از روی کنجکاوی، قبول کردم که برم.
راهنماهای من توی این تور، کریستوفر کینگ (مدیر آزمایشگاه – تصویر پایین سمت راست) و مارک کارول (مدیر مهندسی – سمت چپ پایین) بودن. همین طور دورون آرونسون، مسئول روابط عمومی تیم که این بازدید رو هماهنگ کرده بود (که عکسش رو جلوتر در کنار من می بینید).
تصویری از مدیران ارشد آزمایشگاه که نقش کلیدی در توسعه زیرساخت های سخت افزاری ایفا می کنند.

رهبران آزمایشگاه تراشه AWS، مارک کارول و کریستوفر کینگ در حال نمایش محیط کاری خود.
سرویس AWS از روزهای اولِ شروع به کارِ آزمایشگاه هوش مصنوعی Anthropic، پلتفرم ابری اصلی شون بوده؛ رابطه ای که اون قدر قوی هست که حتی بعد از اضافه شدن مایکروسافت به عنوان شریک ابری Anthropic و همکاری رو به رشد آمازون با OpenAI، همچنان پابرجا بمونه.
معامله با OpenAI باعث می شه AWS تامین کننده انحصاری ابزار جدید این شرکت برای ساخت ایجنت های هوش مصنوعی، یعنی Frontier بشه؛ پروژه ای که اگه ایجنت ها همون طور که سیلیکون ولی فکر می کنه بزرگ بشن، می تونه بخش مهمی از بیزنس OpenAI بشه. البته باید دید این انحصاری بودن دقیقا همون طور که اعلام شده باقی می مونه یا نه. فایننشال تایمز این هفته گزارش داد که مایکروسافت ممکنه معتقد باشه معامله OpenAI با آمازون، توافق خودش با OpenAI رو نقض می کنه، چون طبق اون قرارداد، ردموند (مایکروسافت) باید به همه مدل ها و فناوری های OpenAI دسترسی داشته باشه.
چی باعث شده AWS برای OpenAI این قدر جذاب باشه؟ به عنوان بخشی از این معامله، این غول ابری موافقت کرده که 2 گیگاوات ظرفیت پردازشی Trainium رو در اختیار OpenAI قرار بده. این یه تعهد غول آساست، چون همین الان هم Anthropic و سرویس Bedrock خودِ آمازون دارن تراشه های Trainium رو سریع تر از توان تولید آمازون مصرف می کنن.
شرکت اعلام کرده که در مجموع 1.4 میلیون تراشه Trainium در سه نسل مختلف مستقر شده و مدل Claude از شرکت Anthropic روی بیش از 1 میلیون تراشه Trainium2 در حال اجراست.
نکته قابل توجه اینه که در حالی که Trainium در ابتدا برای آموزش سریع تر و ارزان تر مدل ها طراحی شده بود (که چند سال پیش اولویت بزرگ تری بود)، حالا برای استنتاج (inference) هم بهینه سازی شده و استفاده می شه. استنتاج یعنی همون فرآیند اجرای مدل هوش مصنوعی برای تولید پاسخ در حال حاضر بزرگ ترین گلوگاه عملکردی در این صنعته.
یه مثال واضح: تراشه Trainium2 بخش زیادی از ترافیک استنتاج سرویس Bedrock آمازون رو مدیریت می کنه؛ سرویسی که از ساخت اپلیکیشن های هوش مصنوعی توسط مشتریان سازمانی آمازون پشتیبانی می کنه و به اون ها اجازه می ده از چندین مدل مختلف استفاده کنن.
کینگ گفت: «پایگاه مشتری های ما با همون سرعتی که ما ظرفیت ایجاد می کنیم، در حال گسترشه.» اون با اشاره به سرویس ابری عظیم EC2 اضافه کرد: «Bedrock می تونه یه روز به بزرگی EC2 بشه.»
نسل جدید تراشه های آمازون که برای بهینه سازی فرآیندهای پیچیده طراحی شده است.

نمایی نزدیک از تراشه Trainium3 آمازون که قدرت پردازشی بالایی را ارائه می دهد.
رقابت ترینیوم با انویدیا: عملکرد تراشه Trainium
آمازون می گه علاوه بر اینکه تراشه های جدیدش جایگزینی برای پردازنده های گرافیکی (GPU) کمیاب و پرتقاضای ان ویدیا هستن، اجرای اون ها روی سرورهای تخصصی جدید Trn3 UltraServers تا 50 درصد هزینه کمتری نسبت به سرورهای ابری کلاسیک با عملکرد مشابه داره. این موضوع اهمیت رقابت ترینیوم با انویدیا را بیش از پیش نمایان می کند.
به همراه Trainium3 که در آذر 1403 عرضه شد، این تیم AWS سوئیچ های جدید Neuron رو هم ساختن و کارول می گه این ترکیب واقعا تحول آفرینه.
کارول گفت: «چیزی که این ترکیب به ما می ده، فوق العاده بزرگه.» این سوئیچ ها اجازه می دن هر تراشه Trainium3 با بقیه تراشه ها در یک پیکربندی مش (Mesh) ارتباط برقرار کنه که باعث کاهش تاخیر (latency) می شه. اون اضافه کرد: «به همین دلیله که Trainium3 داره انواع رکوردها رو جابه جا می کنه، مخصوصا در زمینه “قیمت به نسبت توان مصرفی”.»
وقتی صحبت از تریلیون ها توکن در روز باشه، این بهبودها واقعا خودشون رو نشون می دن.
در واقع، تیم تراشه آمازون در سال 1403 مورد تحسین اپل قرار گرفت. در یک لحظه نادر از شفافیت برای این شرکت پنهان کار، مدیر هوش مصنوعی اپل به صورت عمومی توضیح داد که چطور از یکی دیگه از تراشه های این تیم یعنی Graviton استفاده کردن؛ یک CPU سرور کم مصرف مبتنی بر ARM که اولین تراشه موفق طراحی شده توسط این تیم بود. اپل همچنین از Inferentia تراشه ای که مخصوص استنتاج طراحی شده تمجید کرد و به Trainium هم که اون زمان جدید بود، اشاره ای داشت.
این تراشه ها همون استراتژی کلاسیک آمازون رو نشون می دن: ببین مردم چی می خوان بخرن، بعد یه جایگزین داخلی بساز که از نظر قیمت با بقیه رقابت کنه.
از لحاظ تاریخی، مشکل اصلی تراشه ها هزینه های جابه جایی بوده. اپلیکیشن هایی که برای تراشه های ان ویدیا نوشته شدن، باید دوباره معماری بشن تا با بقیه کار کنن فرآیندی زمان بر که باعث می شه توسعه دهنده ها تمایلی به تغییر نداشته باشن.
اما تیم تراشه AWS با افتخار به من گفتن که Trainium حالا از PyTorch پشتیبانی می کنه، که یک فریم ورک متن باز محبوب برای ساخت مدل های هوش مصنوعیه. این شامل خیلی از مدل هایی می شه که در Hugging Face (کتابخونه عظیمی که توسعه دهنده ها مدل های متن باز رو اونجا به اشتراک می ذارن) میزبانی می شن.
کارول به من گفت که این انتقال «اساسا فقط به تغییر یک خط کد، کامپایل مجدد و بعد اجرا روی Trainium نیاز داره.» به عبارت دیگه، آمازون داره سعی می کنه هر جا که ممکنه، سهم ان ویدیا رو در بازار کم کنه و این گونه رقابت ترینیوم با انویدیا را به نفع خود تغییر دهد.
سرویس AWS همچنین همین ماه همکاری خودش رو با Cerebras Systems اعلام کرد و تراشه استنتاج این شرکت رو روی سرورهایی که Trainium رو اجرا می کنن ادغام کرد؛ چیزی که آمازون وعده داده عملکرد هوش مصنوعی فوق العاده قدرتمند با تاخیر کم رو به همراه خواهد داشت. این همکاری ها نشانه ای از تشدید رقابت ترینیوم با انویدیا در بازار است.
اما جاه طلبی های آمازون فراتر از خودِ تراشه هاست. اون ها سروری که میزبان تراشه هاست رو هم طراحی می کنن. علاوه بر قطعات شبکه، این تیم «Nitro» رو طراحی کرده که ترکیبی از سخت افزار و نرم افزاره و فناوری مجازی سازی رو فراهم می کنه (که اجازه می ده نمونه های زیادی از نرم افزار به صورت جداگانه روی یک سرور اجرا بشن)؛ همین طور فناوری جدید و پیشرفته خنک کننده مایع و سِـلِـد های (sled) سرور (تصویر پایین) که میزبان این تجهیزات هستن.
همه این ها برای کنترل هزینه و عملکرده.
اجزای تشکیل دهنده سرورهای پیشرفته که میزبان تراشه های اختصاصی هستند.

تور آزمایشگاه تراشه AWS آستین، سلد (Sled) به همراه قطعات حیاتی آن.
کار شبانه روزی روی مرحله «راه اندازی اولیه» (Bring-up)
واحد طراحی تراشه سفارشی آمازون زمانی متولد شد که این غول ابری، شرکت طراحی تراشه اسرائیلی Annapurna Labs رو در دی 1393 به قیمت حدود 350 میلیون دلار خرید. بنابراین این تیم حالا بیش از 10 سال سابقه طراحی تراشه برای AWS رو داره. این واحد ریشه ها و نام Annapurna رو حفظ کرده و لوگوی اون همه جای دفتر دیده می شه.
این آزمایشگاه تراشه در ساختمانی با پنجره های کرومی براق در منطقه لوکس “The Domain” در آستین قرار داره؛ منطقه ای پیاده راه محور پر از فروشگاه و رستوران که گاهی بهش «سیلیکون ولیِ آستین» می گن.
دفترها فضای کلاسیک شرکت های تکنولوژی رو دارن: میزهای پارتیشن بندی شده، محل های تجمع و اتاق های کنفرانس. اما در انتهای یکی از طبقات بالای ساختمان، آزمایشگاه اصلی با منظره ای پانوراما از شهر قرار گرفته.
آزمایشگاه که پر از قفسه بندیه و اندازه اش حدودا به اندازه دو تا اتاق کنفرانس بزرگه، به خاطر فن های تجهیزات، فضای صنعتی پرسر و صدایی داره. اینجا شبیه ترکیبی از یک کارگاه مدرسه و دکور یک آزمایشگاه پیشرفته در فیلم های هالیوودیه، با این تفاوت که مهندس ها به جای روپوش سفید آزمایشگاه، شلوار جین پوشیدن.
نگاهی به فضای داخلی آزمایشگاه جایی که تست های نهایی روی سخت افزارها انجام می شود.


محیط صنعتی و پویای آزمایشگاه تراشه AWS آستین که شبانه روز در حال فعالیت است.
توجه داشته باشید که اینجا محل ساخت تراشه ها نیست، بنابراین نیازی به لباس های ایزوله سفید نبود. Trainium3 یک تراشه پیشرفته 3 نانومتریه که توسط TSMC تولید می شه (که مسلما پیشرو در تولید 3 نانومتریه) و بقیه تراشه ها توسط Marvell ساخته می شن. این پیشرفت ها، پایه های محکمی برای رقابت ترینیوم با انویدیا فراهم می کند.
اما اینجا همون اتاقیه که جادوی «راه اندازی اولیه» (bring-up) اتفاق می افته.
کینگ توضیح می ده: «راه اندازی اولیه سیلیکون زمانیه که برای اولین بار تراشه رو تحویل می گیرید و این مثل یه مهمونی شبونه بزرگه. شما همین جا می مونید، مثل یه قرنطینه اختیاری.» بعد از 18 ماه کار، تراشه برای اولین بار فعال می شه تا تایید بشه که طبق طراحی کار می کنه. تیم حتی بخشی از راه اندازی Trainium3 رو فیلم برداری کرده و در یوتیوب گذاشته.
اسپویل: هیچ وقت بدون مشکل پیش نمی ره.
در مورد Trainium3, نمونه اولیه تراشه مثل نسخه های قبلی با هوا خنک می شد. اما تراشه فعلی حالا با مایع خنک می شه که مزایای انرژی زیادی داره و خودش یک شاهکار مهندسی بود.
موقع راه اندازی اولیه، ابعاد نحوه اتصال تراشه به هیت سینک خنک کننده هوا درست نبود و تراشه فعال نمی شد.
کینگ گفت تیم اصلا خودش رو نباخت و «بلافاصله یه سنگ فرز آوردن و شروع کردن به تراشیدن فلز.» چون نمی خواستن صداش جوِ پیتزا خوریِ شبِ راه اندازی رو خراب کنه، یواشکی رفتن توی یه اتاق کنفرانس و کار رو انجام دادن.
کینگ گفت بیدار موندن تا صبح و حل کردن مشکلات، «کلِ مفهومِ راه اندازی اولیه سیلیکونه.»
آزمایشگاه حتی یه ایستگاه لحیم کاری و جوشکاری هم داره، جایی که مهندس آزمایشگاه سخت افزار و استادِ این کار، آیزاک گووارا، نحوه لحیم کاری قطعات ریز مدار مجتمع رو زیر میکروسکوپ نشون داد. این کار اون قدر دیوانه وار سخته که مدیر ارشد، کارول، علنا اعتراف کرد که خودش نمی تونه انجامش بده، که باعث خنده بلند گووارا و بقیه مهندس های توی اتاق شد.
دقت مهندسی در بالاترین سطح ممکن برای اتصال قطعات میکروسکوپی.

تور آزمایشگاه تراشه AWS آستین، ایستگاه لحیم کاری با تجهیزات پیشرفته.
آزمایشگاه شامل ابزارهای سفارشی و تجاری برای آزمایش و تحلیل مشکلات تراشه هاست. اینجا آرویند سرینیواسان، مهندس سیگنال، داره نشون می ده که چطور هر قطعه کوچیک روی تراشه رو تست می کنن:
ابزارهای تحلیل سیگنال که وظیفه پایش عملکرد تراشه ها را بر عهده دارند.

تور آزمایشگاه تراشه AWS آستین، تجهیزات تست و کالیبراسیون دقیق.
سِـلِـدها، ستاره های آزمایشگاه هستن
اما ستاره آزمایشگاه، یه ردیف کامله که هر نسل از «سلدها» (sleds) که تیم طراحی کرده رو به نمایش گذاشته.
سیر تکاملی طراحی های سخت افزاری آمازون در طول سال های اخیر.

تور آزمایشگاه تراشه AWS آستین، دیوار سلدها که تاریخچه طراحی های تیم را نشان می دهد.
سلدها همون سینی هایی هستن که تراشه های هوش مصنوعی Trainium، تراشه های Graviton CPU و بردها و قطعات پشتیبان رو در خودشون جای می دن. این ها رو روی یک رک (rack) در کنار قطعه شبکه که اون هم توسط این تیم طراحی شده بچینید، و به سیستم هایی می رسید که قلب موفقیت مدل Claude شرکت Anthropic هستن.
این همون سلدی هست که در کنفرانس AWS re:invent در آذر ماه به نمایش گذاشته شد:
پیکربندی نهایی سخت افزاری که برای استفاده در دیتاسنترها آماده شده است.

تور آزمایشگاه تراشه AWS آستین، سلد Trainium3 که در کنفرانس های اخیر معرفی شد.
تایید شده توسط Anthropic و OpenAI
انتظار داشتم راهنماهای من توی تور کلی درباره معامله با OpenAI پز بدن. اما این کار رو نکردن.
این رازداری ممکنه به خاطر همون ابهام قانونی باشه که قبلا بهش اشاره شد. اما حسی که من گرفتم این بود که این مهندس های خط مقدم (که الان دارن روی نسخه بعدی یعنی Trainium4 کار می کنن) هنوز فرصت زیادی برای کار با OpenAI نداشتن. تمرکز کارهای روزمره شون تا الان روی نیازهای Anthropic و آمازون بوده.
در حال حاضر، بزرگ ترین بخش از تراشه های Trainium2 در پروژه Rainier مستقر شده یکی از بزرگ ترین خوشه های محاسباتی هوش مصنوعی در جهان که اواخر سال 1404 با 500,000 تراشه فعال شد. این سیستم توسط Anthropic استفاده می شه.
اما یه مانیتور روی دیوار دفتر اصلی بود که نقل قولی درباره نحوه استفاده OpenAI از Trainium رو نشون می داد. غرور و افتخار اونجا بود، هرچند نامحسوس. این امر پتانسیل واقعی رقابت ترینیوم با انویدیا را برای همه روشن می سازد.
علاوه بر این آزمایشگاه, تیم دیتاسنتر خصوصی خودش رو هم برای اهداف کیفیت و تست داره. با یه رانندگی کوتاه به اونجا می رسید؛ اونجا بارهای کاری مشتری ها رو اجرا نمی کنن، به همین خاطر توی یک مرکز اشتراکی (co-location) قرار داره، نه دیتاسنترهای اصلی AWS.
امنیت خیلی بالاست: پروتکل های سخت گیرانه ای برای ورود به ساختمان و دسترسی به بخش آمازون وجود داره.
سیستم خنک کننده دیتاسنتر اون قدر بلنده که استفاده از گوش گیر الزامیه و هوا پر از بوی تند فلز داغ شده است. اینجا جای خوشایندی برای یه آدم معمولی نیست که وقت بگذرونه.
حضور در محیط پر سروصدای دیتاسنتر برای بررسی عملکرد واقعی سیستم ها.


تور دیتاسنتر آزمایشگاه تراشه AWS آستین و مشاهده زیرساخت های خنک کننده و پردازشی.
با اینکه توجه به این تیم همیشه بالا بوده، اما اخیرا نظارت ها و حساسیت ها واقعا زیاد شده.
اندی جاسی، مدیرعامل آمازون، نگاه دقیقی به این آزمایشگاه داره و مثل یه پدرِ مغرور، علنا درباره محصولاتش تعریف می کنه. در آذر ماه، اون گفت که تراشه هوش مصنوعی آمازون، رقیب انویدیا همین الان هم یک بیزنس چند میلیارد دلاری برای AWS محسوب می شه و اون رو یکی از بخش های فناوری AWS دونست که بیشترین هیجان رو براش داره. او باور دارد که رقابت ترینیوم با انویدیا به اوج خود رسیده است.
تیم هم این فشار رو حس می کنه. مهندس ها در زمان هر رویدادِ راه اندازی اولیه (bring-up)، سه تا چهار هفته به صورت شبانه روزی کار می کنن تا هر مشکلی رو رفع کنن تا تراشه ها بتوانند به تولید انبوه برسند و وارد دیتاسنترها شوند.
کارول گفت: «خیلی مهمه که در سریع ترین زمان ممکن ثابت کنیم که تراشه واقعا کار می کنه. تا اینجا که خیلی خوب پیش رفتیم.»
*افشای اطلاعات: آمازون هزینه بلیط هواپیما و یک شب اقامت در هتل محلی رو پرداخت کرد. با رعایت اصل «صرفه جویی» (Frugality) که یکی از اصول رهبری آمازونه، این بلیط مربوط به صندلی وسط در انتهای هواپیما و یک اتاق معمولی بود. TechCrunch بقیه هزینه های سفر مثل اوبر و هزینه های چمدان رو بر عهده گرفت. (بله، من برای یه سفر یه روزه چمدان تحویل دادم؛ کلا آدم سخت گیری هستم!)
تلاش های آمازون در طراحی تراشه های اختصاصی نشان از تغییر پارادایم در صنعت ابری دارد. با تمرکز بر کاهش هزینه ها و افزایش کارایی، این شرکت نه تنها وابستگی خود را به تامین کنندگان خارجی کم می کند، بلکه استانداردهای جدیدی را برای آینده هوش مصنوعی و پردازش های سنگین تعریف می نماید. موفقیت این پروژه ها در گرو استمرار نوآوری هایی است که در آزمایشگاه های تخصصی مانند آستین رقم می خورد.
An exclusive tour of Amazon’s Trainium lab, the chip that’s won over Anthropic, OpenAI, even Apple