تبدیل متن به گفتار از اسباببازی Speak & Spell در سال 1978 که زمانی مردم را با توانایی پیشرفتهاش در خواندن کلمات با صدای بلند با استفاده از صدای الکترونیکی شگفتزده میکرد، بسیار پیموده است. اکنون با استفاده از مدلهای هوش مصنوعی یادگیری عمیق، نرمافزار نه تنها میتواند صداهای واقعی ایجاد کند، بلکه میتواند با استفاده از نمونههای صوتی کوچک به طور متقاعدکنندهای از صداهای موجود تقلید کند.
در همین راستا، OpenAI این هفته Voice Engine را معرفی کرد، یک مدل هوش مصنوعی متن به گفتار برای ایجاد صداهای مصنوعی بر اساس بخش 15 ثانیهای از صدای ضبطشده. نمونه های صوتی موتور گفتار در حال عمل را در وب سایت خود ارائه کرده است.
هنگامی که یک صدا شبیه سازی شد، کاربر می تواند متن را در موتور گفتار وارد کند و یک نتیجه صوتی تولید شده توسط هوش مصنوعی را دریافت کند. اما OpenAI آماده توزیع گسترده فناوری خود نیست. این شرکت در ابتدا برنامه ریزی کرده بود که یک برنامه آزمایشی برای توسعه دهندگان راه اندازی کند تا در اوایل ماه جاری برای Voice Engine API ثبت نام کنند. اما پس از بررسی بیشتر پیامدهای اخلاقی، این شرکت تصمیم گرفت تا جاه طلبی های خود را فعلا کاهش دهد.
این شرکت مینویسد: «بر اساس رویکرد ما به امنیت هوش مصنوعی و تعهدات داوطلبانهمان، ما پیشنمایش این فناوری را انتخاب میکنیم، اما در حال حاضر آن را به طور گسترده منتشر نمیکنیم. ما امیدواریم که این پیشنمایش Voice Engine هم پتانسیل آن را برجسته کند و هم نیاز به تقویت انعطافپذیری اجتماعی را در مواجهه با چالشهای ناشی از مدلهای مولد قانعکنندهتر ایجاد کند. »
فناوری شبیهسازی صدا به طور کلی جدید نیست: چندین مدل تبدیل متن به گفتار هوش مصنوعی از سال 2022 وجود داشته است و این فناوری در جامعه منبع باز با بستههایی مانند OpenVoice و XTTSv2 فعال است. اما این ایده که OpenAI در حال حرکت است تا به هر کسی اجازه دهد تا از برند خاص فناوری صوتی خود استفاده کند، قابل توجه است. و از برخی جهات، عدم تمایل شرکت به انتشار کامل آن ممکن است داستان بزرگتری باشد.
OpenAI میگوید که مزایای فناوری صوتی آن شامل ارائه کمک خواندن از طریق صداهای طبیعی، امکان دسترسی جهانی به سازندگان با ترجمه محتوا در عین حفظ لهجههای بومی، کمک به افراد غیرکلامی با گزینههای گفتاری شخصیشده و کمک به بیماران برای بازیابی صدای خود پس از آن است. اختلالات گفتاری
اما همچنین به این معنی است که هر کسی با 15 ثانیه صدای ضبط شده یک فرد می تواند به طور موثر آنها را شبیه سازی کند، که پیامدهای آشکاری برای سوء استفاده احتمالی دارد. حتی اگر OpenAI هرگز موتور صوتی خود را به طور گسترده منتشر نکند، توانایی شبیهسازی صداها از طریق کلاهبرداریهای تلفنی که در آن شخصی صدای یکی از عزیزان خود را تقلید میکند و تماسهای غیرقانونی تبلیغاتی شامل صداهای شبیهسازی شده سیاستمدارانی مانند جو بایدن، مشکلاتی را در جامعه ایجاد کرده است.
علاوه بر این، محققان و روزنامهنگاران نشان دادهاند که از فناوری شبیهسازی صدا میتوان برای هک ، حسابهای بانکی که از احراز هویت صوتی استفاده میکنند (مانند Chase’s Voice ID) استفاده کرد که باعث شد سناتور آمریکایی شرود براون از اوهایو، رئیس کمیته بانکی سنای ایالات متحده آمریکا. ، امور مسکن و شهرسازی، در ماه می 2023 نامه ای به مدیران عامل چندین بانک بزرگ ارسال خواهد کرد تا از اقدامات امنیتی بانک ها برای مقابله با خطرات هوش مصنوعی جویا شود.
OpenAI تشخیص می دهد که اگر این فناوری به طور گسترده منتشر شود می تواند مشکلاتی ایجاد کند، بنابراین در ابتدا سعی می کند با مجموعه ای از قوانین این مشکلات را حل کند. از سال گذشته، این فناوری را با مجموعهای از شرکتهای شریک آزمایش میکند. به عنوان مثال، شرکت ترکیبکننده ویدیو HeyGen از این مدل برای ترجمه صدای گوینده به زبانهای دیگر و در عین حال حفظ همان صدای صوتی استفاده میکند.
منبع: https://www.wired.com/story/openai-voice-engine-artificial-intelligence-release/