محققان آمازون ادعا می کنند که بزرگترین مدل هوش مصنوعی جهان را برای تبدیل متن به گفتار آموزش داده اند. این مدل جدید که BASE TTS نام دارد با 100000 ساعت داده صوتی آموزش دیده است و با قابلیت های بی سابقه ای که دارد می تواند انقلابی در حوزه مدل های تبدیل متن به گفتار ایجاد کند.
مدل جدید بزرگ، تطبیقی و تبدیل متن به گفتار (TTS) آمازون با قابلیتهای نوظهور، BASE TTS نام دارد. برای آموزش نسخه بزرگتر این مدل از 100000 ساعت سخنرانی عمومی استفاده شد که 90 درصد آن به زبان انگلیسی و مابقی به زبان های آلمانی، هلندی و اسپانیایی بود.
این نسخه (BASE-Large) با پشتیبانی از 980 میلیون پارامتر به نظر می رسد بزرگترین مدل در نوع خود باشد. این مدل نیز اساساً یک تقلید صدا نیست، اما با وجود مزایای نوظهور، می تواند در زمینه نمایش گفتار با صدای طبیعی حتی در مواجهه با جملات پیچیده عملکرد بهتری داشته باشد. آمازون همچنین 400 و 150 مدل ویژگی را برای مدل خود بر اساس 10100 ساعت صدا آموزش داده است.
نمونه تولید شده توسط مدل هوش مصنوعی متن به گفتار آمازون
در وب سایت ایجاد شده برای این مدل، نمونه های صوتی زیادی وجود دارد که توسط این هوش مصنوعی بر اساس برخی متون دشوار تولید شده است. در زیر می توانید یکی از این موارد را بشنوید.
لازم به ذکر است که این مدل هنوز در مرحله بتا است و نمی توان از آن برای مقاصد تجاری یا موقعیت های مشابه استفاده کرد. تحقیقات آینده احتمالاً اطلاعات بیشتری را در مورد قابلیت های در حال ظهور و همچنین نحوه آموزش و بکارگیری مدل نشان خواهد داد.
اگرچه منابع و داده های مورد استفاده در BASE TTS به دلایل امنیتی فاش نشده است، اما عملکرد شگفت انگیز این مدل نشانه واضحی از پیشرفت در زمینه هوش مصنوعی است.
منبع: https://digiato.com/artificial-intelligence/largest-text-to-speech-ai-model-yet-shows-emergent-abilities