На прошлой неделе мы достигли важной вехи в области клонирования голоса с помощью ИИ. Используя новую модель 2.0 от Play.HT, любой может создать голосовой клон, используя всего 30 секунд обучающих данных. Перемотав пять месяцев назад, я поражался реализму, которого они достигли с помощью 30-минутного сэмпла. При таких темпах к концу года мы могли бы заставить ваш клонированный голос исполнить Кентерберийские рассказы, ​​обученный на одном кашле.

Клонирование голоса использует алгоритмы машинного обучения/ИИ для анализа закономерностей и, в конечном итоге, воспроизведения голоса человека. Обучаясь на образце речи человека, эти алгоритмы могут генерировать синтетический голос, который точно имитирует тон, высоту звука, акцент и стиль речи исходного говорящего.

Хотя Cough.AI, возможно, еще не стал реальностью, мы можем использовать эту новую модель Play.HT уже сейчас. (Зарегистрируйтесь и попробуйте это бесплатно.) Так насколько это хорошо? Я обучал модель на последней речи Чарли Чаплина из Великого диктатора. (Я чувствовал, что это уместно, поскольку Чаплин был человеком, довольно известным тем, что не разговаривал.)

И после этого я спросил ChatGPT, какую скороговорку мне должен сказать Чарли Чаплин. Он вернулся:

Чарли Чаплин весело болтал, жуя кусок шоколада в дешевом кресле, выбирая очаровательные смешки в стиле Чаплина, чтобы очаровать щебечущих детей в прохладной часовне.

Поэтому я попросил модель имитировать Чарли Чаплина, говорящего эту фразу, и вот результат:

Эта технология становится пугающей. С таким небольшим фрагментом голоса он проделал поистине замечательную работу по имитации голоса Чаплина. Что это значит для всех нас, учитывая, что записывающие устройства распространены повсеместно? Независимо от того, насколько конфиденциальным вы себя считаете, если проводите время в Интернете, отпечатки вашего голоса повсюду.

Чтобы внести ясность: я не должен был делать то, что сделал. Я нарушил пользовательское соглашение Play.HT, когда загрузил аудиоклип, на который у меня не было прав. (Я делал это в образовательных целях и впоследствии удалил модель Чаплина.) Но вскоре модели такого уровня будут открыты и доступны каждому для использования в любых целях. Такова реальность технического прогресса, за которым мы следуем. Клонирование будет использоваться не только для создания образцов мертвых актеров. Его можно использовать для создания голосового клона вашего босса, ваших внуков и, конечно же, вас самих.

Если кто-нибудь сможет получить образец вашего голоса, он вскоре сможет заставить вас говорить все, что ему заблагорассудится. Раньше нам требовалось много обучающих данных, чтобы сделать глубокий фейк. Еще в 2017 году современную технологию дипфейков можно было применить только к таким людям, как мировые лидеры, у которых были огромные наборы обучающих данных.

В 2023 году мы можем сделать глубокую фейковую аудиозапись о ком угодно. Это начало длинного хвоста дипфейков.