OpenAI می تواند صدای انسان را بازسازی کند، اما هنوز این فناوری را منتشر نمی کند

تبدیل متن به گفتار از اسباب‌بازی Speak & Spell در سال 1978 که زمانی مردم را با توانایی پیشرفته‌اش در خواندن کلمات با صدای بلند با استفاده از صدای الکترونیکی شگفت‌زده می‌کرد، بسیار پیموده است. اکنون با استفاده از مدل‌های هوش مصنوعی یادگیری عمیق، نرم‌افزار نه تنها می‌تواند صداهای واقعی ایجاد کند، بلکه می‌تواند با استفاده از نمونه‌های صوتی کوچک به طور متقاعدکننده‌ای از صداهای موجود تقلید کند.

در همین راستا، OpenAI این هفته Voice Engine را معرفی کرد، یک مدل هوش مصنوعی متن به گفتار برای ایجاد صداهای مصنوعی بر اساس بخش 15 ثانیه‌ای از صدای ضبط‌شده. نمونه های صوتی موتور گفتار در حال عمل را در وب سایت خود ارائه کرده است.

هنگامی که یک صدا شبیه سازی شد، کاربر می تواند متن را در موتور گفتار وارد کند و یک نتیجه صوتی تولید شده توسط هوش مصنوعی را دریافت کند. اما OpenAI آماده توزیع گسترده فناوری خود نیست. این شرکت در ابتدا برنامه ریزی کرده بود که یک برنامه آزمایشی برای توسعه دهندگان راه اندازی کند تا در اوایل ماه جاری برای Voice Engine API ثبت نام کنند. اما پس از بررسی بیشتر پیامدهای اخلاقی، این شرکت تصمیم گرفت تا جاه طلبی های خود را فعلا کاهش دهد.

این شرکت می‌نویسد: «بر اساس رویکرد ما به امنیت هوش مصنوعی و تعهدات داوطلبانه‌مان، ما پیش‌نمایش این فناوری را انتخاب می‌کنیم، اما در حال حاضر آن را به طور گسترده منتشر نمی‌کنیم. ما امیدواریم که این پیش‌نمایش Voice Engine هم پتانسیل آن را برجسته کند و هم نیاز به تقویت انعطاف‌پذیری اجتماعی را در مواجهه با چالش‌های ناشی از مدل‌های مولد قانع‌کننده‌تر ایجاد کند. »

  Copilot Pro مایکروسافت یک اشتراک ماهانه 20 دلاری برای ویژگی های پیشرفته هوش مصنوعی است

فناوری شبیه‌سازی صدا به طور کلی جدید نیست: چندین مدل تبدیل متن به گفتار هوش مصنوعی از سال 2022 وجود داشته است و این فناوری در جامعه منبع باز با بسته‌هایی مانند OpenVoice و XTTSv2 فعال است. اما این ایده که OpenAI در حال حرکت است تا به هر کسی اجازه دهد تا از برند خاص فناوری صوتی خود استفاده کند، قابل توجه است. و از برخی جهات، عدم تمایل شرکت به انتشار کامل آن ممکن است داستان بزرگتری باشد.

OpenAI می‌گوید که مزایای فناوری صوتی آن شامل ارائه کمک خواندن از طریق صداهای طبیعی، امکان دسترسی جهانی به سازندگان با ترجمه محتوا در عین حفظ لهجه‌های بومی، کمک به افراد غیرکلامی با گزینه‌های گفتاری شخصی‌شده و کمک به بیماران برای بازیابی صدای خود پس از آن است. اختلالات گفتاری

اما همچنین به این معنی است که هر کسی با 15 ثانیه صدای ضبط شده یک فرد می تواند به طور موثر آنها را شبیه سازی کند، که پیامدهای آشکاری برای سوء استفاده احتمالی دارد. حتی اگر OpenAI هرگز موتور صوتی خود را به طور گسترده منتشر نکند، توانایی شبیه‌سازی صداها از طریق کلاهبرداری‌های تلفنی که در آن شخصی صدای یکی از عزیزان خود را تقلید می‌کند و تماس‌های غیرقانونی تبلیغاتی شامل صداهای شبیه‌سازی شده سیاستمدارانی مانند جو بایدن، مشکلاتی را در جامعه ایجاد کرده است.

علاوه بر این، محققان و روزنامه‌نگاران نشان داده‌اند که از فناوری شبیه‌سازی صدا می‌توان برای هک ، حساب‌های بانکی که از احراز هویت صوتی استفاده می‌کنند (مانند Chase’s Voice ID) استفاده کرد که باعث شد سناتور آمریکایی شرود براون از اوهایو، رئیس کمیته بانکی سنای ایالات متحده آمریکا. ، امور مسکن و شهرسازی، در ماه می 2023 نامه ای به مدیران عامل چندین بانک بزرگ ارسال خواهد کرد تا از اقدامات امنیتی بانک ها برای مقابله با خطرات هوش مصنوعی جویا شود.

  نسخه بتای Threads به شما امکان می دهد در Mastodon و سایر خدمات fediverse به اشتراک بگذارید

OpenAI تشخیص می دهد که اگر این فناوری به طور گسترده منتشر شود می تواند مشکلاتی ایجاد کند، بنابراین در ابتدا سعی می کند با مجموعه ای از قوانین این مشکلات را حل کند. از سال گذشته، این فناوری را با مجموعه‌ای از شرکت‌های شریک آزمایش می‌کند. به عنوان مثال، شرکت ترکیب‌کننده ویدیو HeyGen از این مدل برای ترجمه صدای گوینده به زبان‌های دیگر و در عین حال حفظ همان صدای صوتی استفاده می‌کند.

منبع: https://www.wired.com/story/openai-voice-engine-artificial-intelligence-release/