شرکت اوپن ایآی، پیشگام در عرصه هوش مصنوعی، سهشنبه ۹ مرداد، نسخه آلفای قابلیت صوتی پیشرفته خود را برای شماری از کاربرانش فعال کرد و اعلام کرد در پائیز سال جاری، این امکان را به تدریج برای همه کاربران چتجیبیتی پلاس فعال خواهد کرد.
اوپن ایآی، این قابلیت تازه را در ماه می معرفی کرد و همان زمان به خاطر پاسخهای سریع و شباهت زیادی صدای آن با صدای یک انسان واقعی، توجهات زیادی را به خود جلب کرد.
در آن زمان، شباهت این صدا که نام آن را اسکای گذاشته بودند به صدای اسکارلت جوهانسون، که صداپیشهی کاراکتر دستیار مصنوعی در فیلم «Her» بود، خبرساز شد.
جوهانسون، پس از معرفی این قابلیت، اعلام کرد که او چندین درخواست از سوی سم آلتمن، مدیرعامل این شرکت را برای استفاده از صدایش رد کرده است و پس از دیدن رونمایی از قابلیت صوتی پیشرفته، وکیل استخدام کرد تا از اوپن ایآی برای کپی برداری از صدایش شکایت کند.
اوپن ایآی در واکنش، استفاده از صدای جوهانسون را رد کرد، اما بعدا صدایی که در رونمایی از این قابلیت، از آن استفاده شده بود را حذف کرد و آن را با صداهای دیگر جایگزین کرد.
در ماه ژوئن هم اوپن ایآیاعلام کرد ارائه عمومی قابلیت صوتی پیشرفته را به تاخیر میاندازد تا اقدامات ایمنی را بهبود بخشد و اکنون با فعالسازی محدود روز سهشنبه به نظر میرسد مشکلات امنیتی مدنظر این شرکت حل شده است.
با این همه این نسخه آلفا که سهشنبه به شماری از کاربران ارائه شد، قابلیتهای ویدئو و به اشتراکگذاری صفحه نمایش که در رونمایی بهار نمایش داده شدند، را نخواهد داشت و گفته شده در «تاریخی دیگر» ارائه خواهند شد.
چتجیبیتی اکنون میتواند گوش دهد و صحبت کند
اوپن ایآی میگوید قابلیت صوتی پیشرفته با قابلیت صوتی که در حال حاضر در چتجیبیتی موجود است به کلی متفاوت است. بنا بر اعلام اوپن ایآی، در قابلیت صوتی ابتدایی در چتجیبیتی، این سرویس برای دادن پاسخ سه مرحله را با کمک سه مدل متفاوت طی میکند: ابتدا صدای کاربر را به متن تبدیل میکند، سپس چتجیبیتی۴ این پرسش را پردازش میکند و در مرحله سوم متن پاسخ را به صدا تبدیل میکند.
اما قابلیت صوتی پیشرفته در جیبیتی-۴او، این مراحل را بدون کمک مدلهای دیگر پردازش و انجام میدهد و برای همین مکالمات با تاخیر بسیار کمتر انجام میشود و جیبیتی-۴او همچنین میتواند زیر و بم احساسی در صدای کاربر از جمله غم، هیجان یا آواز خواندن را بفهمد و به آن واکنش نشان دهد.
اوپن ایآی میگوید این قابلیت را به صورت تدریجی ارائه میکند تا بر استفاده از آن به دقت نظارت داشته باشد و ایرادهای احتمالی آن را رفع کند.
کاربرانی که نسخه آلفا برای آنها فعال شده، در اپلیکیشن چتجیبیتی خود پیامی دریافت خواهند کرد و سپس یک ایمیل با دستورالعملهای استفاده از آن، برای آنها ارسال میشود.
اوپن ایآی میگوید در چند ماهی که از رونمایی اولیه قابلیت صوتی پیشرفته گذشته، این قابلیت را با بیش از ۱۰۰تیم خارجی که به ۴۵زبان مختلف صحبت میکنند، آزمایش کرده است و در اویل ماه اگوست گزارشی از اقدامات ایمنی مرتبط را به افکار عمومی ارائه خواهد داد.
این شرکت میگوید قابلیت صوتی پیشرفته تنها با چهار صدای پیشفرض متعلق به این شرکت با نامهای جونیپر، بریزی، کووی و امبر ارائه خواهد شد که صداهایی متعلق به آدمهای واقعی صداپیشه است که با این شرکت همکاری کردهاند و صدای اسکای که در رونمایی اولیه این قابلیت در ماه می استفاه شده بود دیگر در چتجیبیتی در دسترس نیست.
لیندسی مککالوم، سخنگوی اوپن ایآی میگوید چتجیبیتینمیتواند صدای افراد دیگر، چه افراد عادی و چه شخصیتهای شناختهشده را تقلید کند و خروجیهایی که با صداهای پیشفرض متفاوت باشد را مسدود خواهد کرد.»
به نظر میرسد اوپن ایآی در تلاش است تا از جنجالهای مرتبط با دستکاری پیچیده (دیپفیک) اجتناب کند. در ماه ژانویه سال جاری، از فنآوری تقلید صدای استارتاپ هوش مصنوعی AI ElevenLabs برای تقلید صدای جو بایدن استفاده شد که باعث فریب رایدهندگان درون حزبی در ایالت نیوهمپشایر شد.