«ویس باکس» جدیدترین مدل هوش مصنوعی متا رونمایی شد

شرکت متا از «ویس باکس» (Voicebox)، جدیدترین مدل هوش مصنوعی خود با قابلیت تبدیل متن به گفتار رونمایی کرد.

کد خبر : 853075

به گزارش خبرنگار گروه ارتباطات و فناوری اطلاعات خبرگزاری علم و فناوری آنا، شرکت متا از «ویس باکس» (Voicebox) مدل تبدیل متن به گفتار خود رونمایی کرد. این شرکت وعده می‌دهد برای تبدیل متن به گفتار همان کاری را انجام می‌دهد که «چت جی پی تی» (ChatGPT) و «دال ای» (Dall - E) برای تولید متن و تصویر انجام دادند.

مدل هوش مصنوعی «ویس باکس» مانند «جی پی تی» یا «دال ای» یک مولد متن به خروجی است، فقط به جای ایجاد متن یا تصاویر زیبا، کلیپ‌های صوتی را پخش می‌کند. متا این سیستم را این گونه تعریف می‌کند: «یک مدل هماهنگ‌ساز جریان به‌صورت غیرخودکاهنده برای تکمیل صدا براساس زمینه و متن» که این مدل روی بیش از 50 هزار ساعت صدای فیتلرنشده تعلیم یافته و متا به‌طور خاص از صدای کتاب‌های صوتی به زبان‌های انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی استفاده کرده است. متا می‌گوید مدل آن‌ها عملاً می‌تواند هر متنی را از یک زبان به یک زبان دیگر ترجمه کند و شکل گفتاری زبان مقصد را حفظ کند.

نتایج نشان می‌دهد که مدل‌های تشخیص گفتار آموزش دیده در گفتار مصنوعی تولید شده توسط «ویس باکس» (Voicebox) تقریبا به خوبی مدل‌های آموزش دیده در گفتار واقعی عمل می‌کنند.

**«ویس باکس» چه قابلیت‌هایی دارد؟

محققان متا توضیح دادند: این سیستم ابتدا پیش بینی بخش‌های گفتار براساس محیط اطراف آن‌ و سپس متن به متن را آموزش داده شده است این مدل پس از یادگیری گفتار از متن، می‌تواند این کار را در وظایف تولید گفتار، از جمله تولید بخش‌هایی در وسط یک ضبط صوتی به کار گیرد.

گفته می‌شود که «ویس باکس» همچنین قادر به ویرایش فعال کلیپ‌های صوتی، حذف نویز از گفتار و حتی جایگزینی کلمات نادرست است. به گفته محققان، یک فرد می‌تواند تشخیص دهد که کدام بخش گفتار توسط نویز خراب شده است آن را برش بزند و به مدل دستور دهد تا آن بخش را بازسازی کند.

بااین‌حال، مدل «ویس‌باکس» یا کد منبع آن در اختیار عموم قرار نمی‌گیرد. متا اذعان کرده است که با توجه به ریسک‌های احتمالی فعلاً قصدی برای عرضه عمومی این مدل ندارد.

آن‌ها درحال‌حاضرصرفاً مقاله تحقیقاتی مقدماتی این مدل را منتشر کرده‌اند، اما امیدوارند که در آینده بتوانند از این فناوری برای کمک به افرادی که تارهای صوتی‌شان دچار مشکل شده است، و یا به عنوان دستیارهای صوتی استفاده کنند.

انتهای پیام/