Microsoft создала программу для иммитации человеческой речи за 3 секунды

USD

91.63

EUR

98.85

CNY

12.62

Получив запись конкретного голоса, VALL-E может синтезировать аудиозапись того, как человек говорит что-либо, стараясь сохранить его эмоциональный тон. Сама технология представляет из себя нейронную языковую модель, в основе которой лежит EnCodec. С его помощью VALL-E разделяет голоса человека на отдельные компоненты.

Эти компоненты, так называемые «лексемы», нейросеть сопоставляет с соответствующими голосами в своих обучающих данных для создания новых фраз за пределами первоначального трёхсекундного образца.

Microsoft не опубликовала код VALL-E в открытом доступе из-за потенциального риска неправильного использования. К таковым в компании отнесли подмену идентификации голоса или выдачу себя за другую личность.

Василий Жданов

Наука и интернет

Microsoft создала программу для иммитации человеческой речи за 3 секунды

Проблема со смартфонами от Xiaomi

Российская часть "Яндекс" продана за 475 млрд руб.

Число российских пользователей Instagram сократилось на 25%

"Госуслуги" теперь принимают цифровой паспорт

Роскосмосу до Индии как до Луны

Запущена первая российская станция на Южный полюс Луны

Илон Маск ликвидировал бренд "Твиттер"