استارتاپ Memories.ai با استفاده از فناوری های نوین به دنبال تحقق حافظه دیداری هوش مصنوعی در گجت های پوشیدنی و دنیای رباتیک است تا تعامل این ابزارها با محیط فیزیکی بهبود یابد.
«شان شن» معتقده که هوش مصنوعی برای اینکه توی دنیای فیزیکی موفق بشه، باید بتونه چیزهایی که می بینه رو به خاطر بسپاره. شرکت «شن» یعنی Memories.ai، داره از ابزارهای هوش مصنوعی «انویدیا» (Nvidia) استفاده می کنه تا زیرساختی رو برای گجت های پوشیدنی و رباتیک بسازه که بتونن خاطرات بصری رو حفظ و بازیابی کنن. این زیرساخت در واقع مفهوم حافظه دیداری هوش مصنوعی رو عملی می کنه.
شرکت Memories.ai روز دوشنبه در کنفرانس GTC، همکاری خودش رو با غول نیمه هادی یعنی «انویدیا» اعلام کرد. از طریق این مشارکت، Memories.ai از مدل های جدید انویدیا یعنی Cosmos-Reason 2 (که یک مدل زبانی بینایی استدلالی هست) و Nvidia Metropolis (برنامه ای برای جستجو و خلاصه کردن ویدیو) استفاده می کنه تا به توسعه فناوری حافظه بصری خودش ادامه بده.
در این بخش، تصویری از بنیان گذاران اصلی این پروژه در محیط کاری شان مشاهده می شود. شن (تصویر بالا سمت چپ) به «تک کرانچ» گفت که او و هم بنیان گذارش و مدیر فنی شرکت، «بن ژو» (تصویر بالا سمت راست)، ایده این شرکت رو موقع ساخت سیستم هوش مصنوعی عینک های «ری بن متا» (Meta’s Ray-Ban) پیدا کردن. این تصاویر نشان دهنده تلاش تیم مدیریتی برای ایجاد تحول در حوزه بینایی ماشین است. ساخت این عینک های هوشمند باعث شد به این فکر بیفتن که اگه کاربرها نتونن داده های ویدیویی که ضبط می کنن رو بازیابی کنن، واقعا چطوری می خوان از این تکنولوژی در زندگی واقعی استفاده کنن؟
اونا کلی جستجو کردن تا ببینن آیا کسی قبلا چنین راهکار حافظه بصری رو برای هوش مصنوعی ساخته یا نه. وقتی کسی رو پیدا نکردن، تصمیم گرفتن از «متا» جدا بشن و خودشون آستین بالا بزنن و بسازنش.
اهمیت حافظه دیداری هوش مصنوعی در دنیای فیزیکی
شن گفت: «هوش مصنوعی همین الان هم توی دنیای دیجیتال خیلی خوب عمل می کنه. اما دنیای فیزیکی چی؟ گجت های پوشیدنی هوشمند و رباتیک هم به حافظه نیاز دارن… در نهایت، شما نیاز دارین که هوش مصنوعی حافظه بصری داشته باشه. ما به اهمیت حافظه دیداری هوش مصنوعی برای آینده باور داریم.»
توانایی سیستم های هوش مصنوعی برای به خاطر سپردن، به طور کلی موضوع نسبتا جدیدیه. OpenAI در سال 1403 چت جی پی تی رو به روزرسانی کرد تا چت های قبلی رو یادش بمونه و در سال 1404 این ویژگی رو دقیق تر کرد. شرکت xAI ایلان ماسک و گوگل جمینای هم توی دو سال گذشته ابزارهای حافظه خودشون رو راه انداختن.
اما شن می گه این پیشرفت ها عمدتا روی حافظه مبتنی بر متن متمرکز بودن. حافظه متنی خیلی ساختاریافته تره و فهرست بندی کردنش راحت تره، اما برای کاربردهای هوش مصنوعی فیزیکی که عمدتا از طریق بینایی و تصاویر با دنیا در تعامل هستن، اونقدرها مفید نیست. اینجاست که حافظه دیداری هوش مصنوعی نقش حیاتی پیدا می کند.
شرکت Memories.ai در سال 1403 راه افتاد و تا الان 16 میلیون دلار سرمایه جذب کرده؛ که 8 میلیون دلار اون مربوط به مرحله Seed در تیرماه 1404 و 8 میلیون دلار دیگه به عنوان تمدید همون مرحله بوده. این دور از سرمایه گذاری توسط Susa Ventures رهبری شد و شرکت هایی مثل Seedcamp، Fusion Fund و Crane Venture Partners هم توش حضور داشتن.
توسعه و آینده حافظه دیداری هوش مصنوعی
شن گفت که ساخت موفقیت آمیز این لایه حافظه بصری به دو چیز نیاز داشت: ساخت زیرساخت لازم برای جاسازی و فهرست بندی ویدیوها در قالبی که بشه ذخیره و بازیابی شون کرد، و همچنین جمع آوری داده های لازم برای آموزش مدل تا دقیقا همین کار رو انجام بده. این گامی مهم در توسعه حافظه دیداری هوش مصنوعی است.
این شرکت مدل بزرگ حافظه بصری خودش (LVMM) رو در تیرماه 1404 عرضه کرد. شن گفت که این مدل رو می شه با نسخه کوچک تری از Gemini Embedding 2 مقایسه کرد؛ مدل فهرست بندی و بازیابی چندوجهی که اوایل همین ماه منتشر شده بود.
برای جمع آوری داده، شرکت دستگاهی به اسم LUCI ساخت؛ یک سخت افزار که توسط «جمع آورندگان داده» شرکت پوشیده می شه و ویدیوهایی رو برای آموزش مدل ضبط می کنه. شن گفت اونا قصدی ندارن که به یک شرکت سخت افزاری تبدیل بشن یا این دستگاه ها رو بفروشن، بلکه چون از ضبط کننده های ویدیوی موجود در بازار که فقط روی کیفیت بالا و فرمت های پرمصرف باتری تمرکز داشتن راضی نبودن، دستگاه خودشون رو ساختن.
این شرکت نسل دوم LVMM رو منتشر کرد و قراردادی با کوالکام (Qualcomm) بست تا از اواخر امسال، این مدل روی پردازنده های کوالکام اجرا بشه. این همکاری ها پیشرفت حافظه دیداری هوش مصنوعی را تسریع می کند.
شن گفت که Memories.ai همین الان هم داره با بعضی از شرکت های بزرگ تولیدکننده گجت های پوشیدنی همکاری می کنه، اما از فاش کردن اسم اونا خودداری کرد. با وجود تقاضایی که الان وجود داره، شن فرصت های خیلی بزرگ تری رو در آینده برای گجت های پوشیدنی و رباتیک می بینه.
شن گفت: «از نظر تجاری سازی، ما بیشتر روی مدل و زیرساخت تمرکز کردیم، چون در نهایت فکر می کنیم بازار گجت های پوشیدنی و رباتیک از راه می رسه، اما احتمالا نه به این زودی ها.» این یعنی نیاز به زیرساخت های قوی برای حافظه دیداری هوش مصنوعی در آینده اجتناب ناپذیر است.
تلاش برای شبیه سازی قابلیت های ذهنی انسان در ماشین ها نشان دهنده مسیر جدیدی است که استارتاپ ها با همکاری غول های فناوری در پیش گرفته اند. با تکامل این سیستم ها، انتظار می رود ربات ها و ابزارهای پوشیدنی به درک عمیق تری از محیط پیرامون خود برسند و تجربه ای متفاوت را برای کاربران رقم بزنند.
Memories AI is building the visual memory layer for wearables and robotics