Синтезатор речи VALL-E сымитирует любой голос в одно мгновение: как это возможно

синтезатор речи, подделка речи, Deefake, Microsoft Vall-E, искусственный интеллект
Фото: Иллюстративное фото

ИИ-бот умеет имитировать любой голос и звук — ему достаточно прослушать оригинал в течение нескольких секунд.

Исследователи Microsoft объявили о новой модели искусственного интеллекта для преобразования текста в речь, сообщает сайт ArsTechnica. Проект VALL-E, может точно имитировать голос человека и для этого достаточно всего трехсекундного отрывка для примера.

Конечно, чем длиннее образец речи, тем точнее и натуральнее искусственный интеллект сможет его сымитировать. Как только VALL-E "выучит" конкретный голос, он может синтезировать звук таким образом, что сможет подделать даже эмоциональный тон говорящего.

Создатели ИИ-инструмента говорят, что их разработку можно использовать для высококачественных приложений преобразования текста в речь. Но уже сейчас понятно, что подобная технология даст большое поле для распространения различных фейков и информационных диверсий, если этот инструмент попадет не в те руки. А если представить симбиоз разработки Microsoft и технологии Deepfake (подделка визуального образа), то даже представить страшно, что ждет СМИ и всех нас в будущем.

Проект VALL-E от Microsoft основан на технологии EnCodec, о которой Meta объявила в октябре 2022 года. В отличие от других методов преобразования текста в речь, которые обычно синтезируют речь, манипулируя формами сигналов, дискретные сигналы EnCodec состоят из текстовых и акустических подсказок. С помощью них искусственный интеллект генерирует соответствующие акустические маркеры голоса и использует их для синтеза речи.

синтезатор речи, подделка речи, Deefake, Microsoft Vall-E Fullscreen
Принцип работы Vall-E и EnCodec

Специалисты Microsoft обучали искусственный интеллект VALL-E на звуковой библиотеке, собранной Meta, под названием LibriLight . Она содержит 60 тыс. часов англоязычной речи от более чем 7 тыс. носителей, в основном взятых из общедоступных аудиокниг LibriVox . Чтобы VALL-E дал хороший результат, голос в трехсекундном образце должен точно совпадать с голосом в обучающих данных.

Microsoft выложила примеры работы VALL-E по имитации голосов. Некоторые результаты не слишком отличаются от привычного голоса синтезированного компьютером, но есть и другие, которые просто неотличимы от оригинала. И это действительно поражает! Помимо сохранения вокального тембра и эмоционального тона говорящего, VALL-E также может имитировать акустическое окружение. Например, если сэмпл взят из телефонного звонка, то ИИ сымитирует соответствующий фоновый шум, как в оригинале.

В Microsoft прекрасно осознают все риски связанные с их разработкой, а потому никому не предоставляют код VALL-E для экспериментов. Ученые обещают, что будут использовать свой проект как раз для того, чтобы изобличать подделки голоса от других подобных проектов, которые наверняка скоро появятся.

Ранее Фокус писал, что исследователи собираются научить искусственный интеллект разговаривать на 1000 языках.