Искусственный интеллект научился имитировать человеческий голос

Март 6th, 2018

adminGWP

Тexнoлoгия пoд нaзвaниeм Deep Voice рaбoтaeт нa oснoвe мaшиннoгo oбучeния: oнa "трeнирoвaлaсь" нa звукoвoй зaписи, длящeйся бoлee 800 чaсoв и включaющeй в сeбя oкoлo 2400 рaзныx гoлoсoв. Для эффeктивнoй рaбoты нeйрoсeти нужнo oкoлo 100 пятисeкундныx звукoвыx сигнaлoв, при этoм oнa мoжeт обмануть системы распознавания голоса с помощью всего десяти пятисекундных семплов.

Читай также: Искусственный интеллект научился превращать зиму в лето

Deep Voice точно имитирует тембр и интонации голоса, что делает производимые им звуки неотличимыми от настоящих, и, по мнению создателей, система найдет широкое применение в совершенно разных областях. Например, она может быть использована для создания персонализированных цифровых помощников, оказания услуг по автоматическому синхронному переводу, озвучивания книг, фильмов и видеоигр. Более того, нейросеть облегчит жизнь тем, кто по каким-то причинам утратил возможность говорить, и скрасит одиночество детей, читая им сказки на ночь, когда родители уехали в командировку. Интересно, что Deep Voice умеет менять голос, делая его мужским вместо женского или добавляя ему иностранный акцент.

"Это настоящий прорыв с технической точки зрения, – говорит один из авторов разработки Лео Зу (Leo Zou). – Нам удалось решить сложнейшую генеративную проблему, а именно, мы смогли синтезировать живую речь со всеми ее особенностями".

Читай также: Искусственный интеллект Google оказался умнее Siri в два раза

Ранее канадскими разработчиками был создан похожий голосовой сервис под названием Lyrebird. Он сжимает все индивидуальные речевые характеристики в очень короткую запись, воспроизводя 1000 предложений всего за полсекунды. Система легко копирует любые звуки, начиная от жужжания бензопилы и заканчивая пением тропических птиц, а также может генерировать новые голоса и добавлять старым определенный тон: сердитый, веселый, сочувствующий. Lyrebird, также как и Deep Voice, применяется для работы голосовых помощников, озвучивания мультимедийных продуктов и синтеза речи людей с ограниченными возможностями.

Правда, у обеих технологий есть общая проблема: возможно, ими захотят воспользоваться мошенники, чтобы вводить людей в заблуждение или обманывать программы, работающие на основе распознавания речи. А юристы опасаются, что в скором времени аудиозаписи перестанут являться доказательством в ходе судебных процессов.

magne1906