ماتی استانیشوسکی، هم بنیان گذار و مدیرعامل ElevenLabs، می گه که صدا داره به رابط کاربری بزرگ بعدی برای هوش مصنوعی تبدیل می شه؛ یعنی راهی که مردم با فراتر رفتن مدل ها از متن و صفحه نمایش، بیشتر و بیشتر با ماشین ها تعامل خواهند داشت. این چشم انداز، نقش مهمی در شکل گیری آینده هوش مصنوعی با صدا ایفا خواهد کرد.
استانیشوسکی در جریان سخنرانی در اجلاس وب (Web Summit) در دوحه، به تک کرانچ گفت که مدل های صوتی مثل اون هایی که ElevenLabs توسعه داده، اخیرا از تقلید ساده گفتار انسانی شامل احساسات و لحن فراتر رفتن و حالا در کنار توانایی های استدلالی مدل های زبانی بزرگ کار می کنن. اون معتقده که نتیجه این اتفاق، تغییری در نحوه تعامل مردم با تکنولوژیه.
تحول در تعامل با هوش مصنوعی؛ آینده هوش مصنوعی با صدا
اون گفت: «در سال های آینده، امیدواریم همه گوشی هامون به جیب هامون برگردن و بتونیم غرق در دنیای واقعی اطرافمون بشیم، در حالی که صدا همون مکانیزمی باشه که تکنولوژی رو کنترل می کنه و به این ترتیب، مسیر روشنی برای آینده هوش مصنوعی با صدا ایجاد می شه.»
این دیدگاه که آینده هوش مصنوعی با صدا گره خورده است، باعث شد ElevenLabs همین هفته 500 میلیون دلار با ارزش گذاری 11 میلیارد دلاری سرمایه جذب کنه؛ دیدگاهی که روزبه روز در کل صنعت هوش مصنوعی بیشتر به اشتراک گذاشته می شه. OpenAI و گوگل هر دو صدا رو محور اصلی مدل های نسل بعدی خودشون قرار دادن، همان طور که استفاده از هوش مصنوعی در آمازون فایر تی وی برای پرش به صحنه فیلم با صدا برای کنترل محتوا نشان دهنده همین رویکرد است؛ در حالی که به نظر می رسه اپل هم با خرید شرکت هایی مثل Q.ai، بی سروصدا در حال ساخت فناوری های همیشه روشن و مرتبط با صداست.
همزمان با گسترش هوش مصنوعی در گجت های پوشیدنی، خودروها و سخت افزارهای جدید، کنترل کردن دیگه کمتر به معنی ضربه زدن روی صفحه نمایش و بیشتر به معنی صحبت کردنه؛ موضوعی که صدا رو به میدان نبرد کلیدی برای مرحله بعدی توسعه هوش مصنوعی تبدیل می کنه.
ست پیرپوینت، شریک عمومی Iconiq Capital هم در وب سامیت همین دیدگاه رو تکرار کرد و گفت با وجود اینکه صفحه های نمایش همچنان برای بازی و سرگرمی مهم خواهند بود، اما روش های ورودی سنتی مثل کیبوردها دارن کم کم «قدیمی» به نظر می رسن.
پیرپوینت گفت که با «عامل محور» (Agentic) شدن سیستم های هوش مصنوعی، خودِ تعامل هم تغییر می کنه. این تحول، مسیری جدید برای آینده هوش مصنوعی با صدا باز می کند، زیرا مدل ها به محافظ ها، یکپارچه سازی ها و بافتی (Context) که برای پاسخگویی با دستورات مستقیمِ کمتر از طرف کاربر لازمه، مجهز می شن.
استانیشوسکی به این تغییر به سمت عامل محور شدن به عنوان یکی از بزرگترین تحولات در حال انجام در حوزه آینده هوش مصنوعی با صدا اشاره کرد. اون گفت سیستم های صوتی آینده به جای اینکه نیاز داشته باشن هر دستور رو دقیقا براشون توضیح بدیم، بیشتر به حافظه پایدار و بافتی که در طول زمان ساخته شده تکیه می کنن؛ این کار باعث می شه تعاملات طبیعی تر به نظر بیان و تلاش کمتری از طرف کاربر لازم باشه.
اون اضافه کرد که این تکامل روی نحوه پیاده سازی مدل های صوتی هم تاثیر می ذاره. در حالی که مدل های صوتی باکیفیت عمدتا در فضای ابری (Cloud) مستقر بودن، استانیشوسکی گفت ElevenLabs داره روی یک رویکرد ترکیبی کار می کنه که پردازش ابری و محلی (روی دستگاه) رو با هم ترکیب می کنه. این حرکت با هدف پشتیبانی از سخت افزارهای جدید، از جمله هدفون ها و سایر پوشیدنی هاست؛ جایی که صدا به جای اینکه صرفا قابلیتی باشه که تصمیم می گیرید چه زمانی ازش استفاده کنید، به یک همراه همیشگی تبدیل می شه.
شرکت ElevenLabs همین حالا هم با متا همکاری می کنه تا تکنولوژی صوتی خودش رو به محصولاتی مثل اینستاگرام و Horizon Worlds (پلتفرم واقعیت مجازی این شرکت) بیاره. استانیشوسکی گفت که با گسترش رابط های صوتی به فرم های جدید، تمایل داره با متا روی عینک های هوشمند ری بن (Ray-Ban) هم همکاری کنه.
چالش ها و فرصت ها در آینده هوش مصنوعی با صدا
اما با همیشگی تر شدن صدا و نفوذش در سخت افزارهای روزمره، راه برای نگرانی های جدی درباره حریم خصوصی، نظارت و میزان داده های شخصی که سیستم های مبتنی بر صدا ذخیره می کنن، باز می شه. مدیریت این چالش ها برای تضمین موفقیت آینده هوش مصنوعی با صدا حیاتی است؛ چیزی که شرکت هایی مثل گوگل قبلا هم به سوءاستفاده از اون متهم شدن.
مسیر پیش روی فناوری های صوتی نشان می دهد که مرزهای میان دنیای فیزیکی و دیجیتال بیش از پیش کم رنگ خواهد شد. با هوشمندتر شدن دستیارهای صوتی و ادغام عمیق آن ها در ابزارهای زندگی روزمره، نحوه دسترسی ما به اطلاعات و مدیریت دستگاه ها به کلی تغییر می کند و تجربه ای انسانی تر، بصری تر و کارآمدتر از تکنولوژی برای همه کاربران خلق می شود.