Сегодня 18 мая 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Meta✴ представила ИИ-модель Voicebox, которая генерирует и редактирует устную речь

Инженеры Meta рассказали о нейросетевой модели Voicebox, которая обладает широкими возможностями по работе с устной речью: генерация, редактирование или стилизация по образцу. Авторы проекта охарактеризовали её как прорыв в моделях речевого ИИ.

 Источник изображения: ***

Источник изображения: Meta

Voicebox озвучивает заданный текст с высоким качеством или производит обработку уже готовой записи голоса, например, удаляет из него посторонние звуки вроде автомобильных гудков и собачьего лая, сохраняя содержание и стилистику речи. При необходимости можно даже «переиграть» фрагмент записи, точечно исправив, например, неправильно произнесённое слово. Поддерживаются шесть языков: английский, французский, немецкий, испанский, польский и португальский. Voicebox может использоваться в качестве синхронного переводчика, передавая голос и манеру речи собеседника.

Модель была обучена на 50 часах аудиокниг, и этого ей хватило, чтобы овладеть навыками устной речи в полной мере: она составляет профиль голоса и манеры речи на основе образца продолжительностью всего две секунды, после чего может воспроизвести её с любым текстом. На практике эти возможности могут оказаться полезными в приложениях метавселенной, обеспечив естественное звучание голосов для виртуальных помощников и неигровых персонажей; или для слабовидящих людей — модель может озвучивать письма голосами их авторов.

Meta часто делает свои ИИ-модели общедоступными, но не на сей раз. В компании не раскрыли, на каких материалах производилось обучение Voicebox, и не предложили испытать технологию на практике — опасаются злоупотреблений.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Twitter официально переехал на домен X.com 3 ч.
Google выпустил вторую бету Android 15 с «Личным пространством», предиктивным «Назад» и множеством других нововведений 10 ч.
Новая статья: Animal Well — колодец, из которого не хочется вылезать. Рецензия 10 ч.
В России готовы взяться за борьбу с серым импортом видеоигр 11 ч.
Microsoft начала веерные остановки подписок на свои облачные продукты для российских корпоративных клиентов 11 ч.
Лучше поздно, чем никогда: Arkane Austin всё-таки выпустит финальное обновление Redfall 12 ч.
МТС открыла магистратуру по искусственному интеллекту в Высшей школе экономики 14 ч.
Sony пригрозила 700 компаниям судом за несанкционированное использование музыки для обучения ИИ 15 ч.
Ubisoft отреагировала на слухи о требованиях Assassin's Creed Shadows к постоянному онлайн-подключению 15 ч.
Следующая Call of Duty на старте продаж станет доступна в Game Pass 16 ч.
Летающими электромобилями XPeng можно будет управлять без особых разрешений, но только за пределами городов 5 ч.
Слухи: Apple готовит сверхтонкий iPhone 17 — он выйдет в 2025 году и будет дороже iPhone 17 Pro Max 8 ч.
Крупнейший в России оператор ЦОД и облачных услуг «РТК-ЦОД» готовится к IPO 13 ч.
Palit представит на Computex видеокарту с водоблоком и воздушной системой охлаждения 14 ч.
Роборуки от MIT помогут астронавтам NASA встать после падения на Луне 14 ч.
Xiaomi представила смартфон среднего уровня Redmi Note 13R — он почти идентичен Redmi Note 12R 14 ч.
AT&T и AST SpaceMobile обеспечат спутниковой связью обычные смартфоны сначала в США, а после — по всей Земле 14 ч.
TSMC будет выпускать основания для стеков HBM4 по 12- и 5-нм техпроцессам 17 ч.
LG свернула производство рулонных телевизоров Signature OLED R 17 ч.
Производитель микроэлектроники «Элемент» выйдет на биржу до конца мая — это позволит привлечь до 15 млрд рублей на развитие 17 ч.