Діджитал

Синтезатор мови VALL-E зімітує будь-який голос в одну мить: як це можливо

12.01.2023 в 09:37

Фото: Ілюстративне фото

ШІ-бот вміє імітувати будь-який голос і звук – йому достатньо прослухати оригінал протягом кількох секунд.

Дослідники Microsoft оголосили про нову модель штучного інтелекту для перетворення тексту на мову, повідомляє сайт ArsTechnica. Проєкт VALL-E може точно імітувати голос людини і для цього достатньо всього трисекундного уривка для прикладу.

Звичайно, чим довший зразок мови, тим точніше і натуральніше штучний інтелект зможе його зімітувати. Як тільки VALL-E "вивчить" конкретний голос, він може синтезувати звук таким чином, що зможе підробити навіть емоційний тон того, хто говорить.

Автори ШІ-інструменту кажуть, що їх розробку можна використовувати для високоякісних програм перетворення тексту на мову. Але вже зараз зрозуміло, що подібна технологія дасть велике поле для поширення різних фейків та інформаційних диверсій, якщо цей інструмент потрапить не до рук. А якщо уявити симбіоз розробки Microsoft і технології Deepfake (підробка візуального образу), то навіть уявити страшно, що чекає ЗМІ та всіх нас у майбутньому.

Проєкт VALL-E від Microsoft заснований на технології EnCodec, яку Meta оголосила в жовтні 2022 року. На відміну від інших методів перетворення тексту на мовлення, які зазвичай синтезують мову, маніпулюючи формами сигналів, дискретні сигнали EnCodec складаються з текстових та акустичних підказок. За допомогою них штучний інтелект генерує відповідні акустичні маркери голосу та використовує їх для синтезу мови.

Принцип роботи Vall-E та EnCodec

Фахівці Microsoft навчали штучний інтелект VALL-E на звуковій бібліотеці, зібраній Meta, під назвою LibriLight. Вона містить 60 тис. годин англомовної мови від більш ніж 7 тис. носіїв, в основному взятих із загальнодоступних аудіокниг LibriVox. Щоб VALL-E дав хороший результат, голос у трисекундному зразку повинен точно збігатися з голосом у навчальних даних.

Microsoft виклала приклади роботи VALL-E щодо імітації голосів. Деякі результати не надто відрізняються від звичного голосу синтезованого комп'ютером, але є й інші, які просто не відрізняються від оригіналу. І це справді вражає! Крім збереження вокального тембру і емоційного тону, VALL-E також може імітувати акустичне оточення. Наприклад, якщо семпл взято з телефонного дзвінка, то ШІ зімітує відповідний фоновий шум, як в оригіналі.

У Microsoft чудово усвідомлюють всі ризики пов'язані з їхньою розробкою, а тому нікому не надають код VALL-E для експериментів. Вчені обіцяють, що будуть використовувати свій проєкт якраз для того, щоб викривати підробки голосу від інших подібних проєктів, які скоро з'являться.

Раніше Фокус писав, що дослідники збираються навчити штучний інтелект розмовляти 1000 мовами.