توسعه تکنولوژی های جدید توسط غول های صنعت نشان می دهد که رابط صوتی آینده با عبور از نمایشگرهای سنتی، به زودی نحوه تعامل ما با دستگاه های هوشمند و محیط اطرافمان را به کلی دگرگون خواهد کرد.
OpenAI داره روی هوش مصنوعی صوتی سرمایه گذاری بزرگی می کنه و موضوع فقط بهتر شدن صدای ChatGPT نیست. طبق گزارش های جدید The Information، این شرکت طی دو ماه گذشته چندین تیم مهندسی، محصول و تحقیق رو با هم ادغام کرده تا مدل های صوتی خودش رو بازسازی کنه؛ همه این ها برای آماده سازی یک دستگاه شخصی با اولویت صوتیه که انتظار می ره تا حدود یک سال دیگه وارد بازار بشه. این تحولات، نشانه ای از شکل گیری رابط صوتی آینده در دنیای تکنولوژی است.
این اقدام نشون دهنده مسیریه که کل صنعت تکنولوژی داره به سمتش می ره؛ یعنی آینده ای که در آن صفحه نمایش ها به حاشیه می رن و صدا نقش اصلی رو ایفا می کنه. بلندگوهای هوشمند همین حالا هم دستیارهای صوتی رو به عضو ثابت بیش از یک سوم خانه های آمریکا تبدیل کردن.
متا به تازگی قابلیتی برای عینک های هوشمند ری بن خودش معرفی کرده که با استفاده از مجموعه ای از پنج میکروفون، به شما کمک می کنه مکالمات رو در اتاق های شلوغ بهتر بشنوید؛ یعنی در واقع صورت شما رو به یک دستگاه شنود جهت دار تبدیل می کنه. گوگل هم در ژوئن (خرداد/تیر 1403) آزمایش «Audio Overviews» رو شروع کرد که نتایج جستجو رو به خلاصه های صوتی و گفتاری تبدیل می کنه. تسلا هم در حال ادغام Grok و سایر مدل های زبانی بزرگ در خودروهای خودشه تا دستیارهای صوتی بسازه که می تونن همه چیز، از مسیریابی گرفته تا کنترل دما رو از طریق گفتگوی طبیعی انجام بدن. علاوه بر این، تسلا بر روی قابلیت هایی نظیر رانندگی و پیامک با تسلا نیز تمرکز کرده تا تعامل صوتی را در محیط خودرو بهینه تر کند. این تحولات گسترده، به وضوح مسیر را برای توسعه رابط صوتی آینده هموار می سازد.
فقط غول های تکنولوژی نیستن که دارن روی این موضوع شرط بندی می کنن. گروهی از استارتاپ های مختلف هم با همین باور وارد میدون شدن، هرچند موفقیتشون متفاوت بوده. سازندگان Humane AI Pin صدها میلیون دلار هزینه کردن قبل از اینکه گجت پوشیدنی بدون صفحه نمایش شون به یک درس عبرت تبدیل بشه. این تلاش ها در راستای ایجاد یک رابط صوتی آینده برای تعاملات روزمره است.
گردنبند Friend AI که زندگی شما رو ضبط می کنه و نقش همراه رو داره، به همون اندازه که جذاب بوده، نگرانی های امنیتی و ترس های وجودی هم ایجاد کرده. حالا هم حداقل دو شرکت، از جمله Sandbar و شرکتی که توسط اریک میجیکوفسکی (بنیان گذار Pebble) اداره می شه، دارن حلقه های هوش مصنوعی می سازن که انتظار می ره در سال 2026 (1404/1405) عرضه بشن و به کاربرا اجازه بدن که با دستشون حرف بزنن!
چرا صدا، رابط صوتی آینده است؟
شاید شکل و شمایل دستگاه ها متفاوت باشه، اما اصل ماجرا یکیه: صدا، رابط صوتی آینده است. هر فضایی خونه شما، ماشینتون و حتی صورتتون داره به یک رابط کاربری تبدیل می شه.
گفته می شه مدل صوتی جدید OpenAI که برای اوایل سال 2026 (زمستان 1404) برنامه ریزی شده، صدای طبیعی تری خواهد داشت، مثل یک طرف مقابل واقعی با وقفه ها در صحبت کنار میاد و حتی می تونه هم زمان با شما صحبت کنه؛ کاری که مدل های امروزی از پسش برنمیان. این پیشرفت ها، نویدبخش یک رابط صوتی آینده هوشمندتر و طبیعی تر است. همچنین شنیده شده که این شرکت خانواده ای از دستگاه ها، از جمله احتمالا عینک ها یا بلندگوهای هوشمند بدون صفحه نمایش رو در نظر داره که کمتر شبیه ابزار و بیشتر شبیه یک همراه عمل می کنن.
همون طور که The Information اشاره کرده، جانی آیو، مدیر طراحی سابق اپل که با تصاحب 6.5 میلیارد دلاری شرکتش در می (اردیبهشت/خرداد 1403) به تلاش های سخت افزاری OpenAI ملحق شده، کاهش اعتیاد به دستگاه ها رو در اولویت قرار داده. اون طراحی با اولویت صوتی رو فرصتی برای «اصلاح اشتباهات» گجت های مصرفی گذشته می بینه و معتقده که رابط صوتی آینده باید به سمت تعاملی انسانی تر حرکت کند. این رویکرد، پتانسیل بالایی برای شکل دهی رابط صوتی آینده دارد.
تغییر پارادایم از لمس و نگاه به سمت گفتگو، تنها یک پیشرفت فنی ساده نیست، بلکه بازگشتی به طبیعی ترین شکل ارتباط انسانی است. با ورود دستگاه های جدیدی که صدا را در اولویت قرار می دهند، فاصله میان دنیای دیجیتال و فیزیکی کمتر شده و هوش مصنوعی به جای یک ابزار پیچیده، به همراهی همیشگی و نامرئی در زندگی روزمره تبدیل خواهد شد.
OpenAI bets big on audio as Silicon Valley declares war on screens