Интересные факты

Нейронную сеть научили практически идеально копировать человеческий голос

В прошлом году компания DeepMind, занимающаяся разработками технологий искусственного интеллекта, поделилась деталями о своем новом проекте WaveNet – нейронной сети глубинного обучения, использующейся для синтезации реалистичной человеческой речи. На днях была выпущена усовершенствованная версия этой технологии, которая будет использоваться в качестве основы цифрового мобильного ассистента Google Assistant.

Система голосового синтезирования (также известная будто функция преобразования «текст-в-речь», text-to-speech, TTS) обыкновенно строится на базе одного из двух основных методов. Конкатенативный (или компилятивный) метод подразумевает построение фраз путем сбора отдельных кусков записанных слов и частей, заране записанных с привлечением актера озвучания. Основным недостатком такого метода является нужда постоянной замены звуковой библиотеки всякий одинешенек, когда происходят какие-нибудь обновления или вносятся изменения.

Другой метод носит название параметрического TTS, и его особенностью является использование наборов параметров, с помощью которых компьютер генерирует нужную фразу. Минус метода в том, что чаще итого итог проявляется в виде нереалистичного или этак называемого роботизированного звучания.

Похожие новости  Роботов научили предсказывать будущее

Что же касается WaveNet, то она производит звуковые волны с нуля на базе системы, работающей на основе сверточной нейронной сети, где генерация звука происходит в несколько слоев. Вначале для тренировки платформы синтезации «живой» речи ей «скармливают» огромный объем образцов, при этом отмечая, какие звуковые сигналы звучат реалистично, а какие дудки. Это наделяет голосовой синтезатор возможностью воспроизводить натуралистичную интонацию и даже такие детали, будто чмокающие звуки губами. В зависимости от того, какие образцы внушение прогоняются через систему, это позволяет ей раскрутить уникальный «акцент», что в перспективе может использоваться для создания множества разных голосов.

Остра на манера

Пожалуй, самым большим ограничением системы WaveNet являлось то, что для ее работы требовалось наличие огромного объема вычислительной мощности, и даже при выполнении этого обстоятельства она не отличалась скоростью работы. Этак, для генерации 0,02 секунды звука ей требовалось возле 1 секунды времени.

Похожие новости  Илон Маск завершил строительство крупнейшего в мире аккумулятора за 100 дней

Спустя год работы инженеры DeepMind все-таки нашли способ, будто улучшить и оптимизировать систему таким образом, что сейчас она способна изготовлять влажный звук длительностью в одну секунду итого на 50 миллисекунд, что в 1000 одинешенек быстрее ее изначальных возможностей. Более того, специалистам удалось повысить частоту дискретизации звука с 8-битного до 16-битного, что положительно сказалось на тестах с привлечением слушателей. Благодаря этим успехам, для WaveNet была открыта линия к интеграции в такие потребительские продовольствие, будто Google Assistant.

В натуральный момент WaveNet может использоваться для генерации английских и японских голосов чрез Google Assistant и все платформы, где используется этот цифровой ассистент. Этак будто система может основывать особый образ голосов в зависимости от того, какой комплект образцов был ей предоставлен для обучения, то в скором времени Google, вероятнее итого, внедрит в WaveNet поддержку синтезации реалистичной речи и на других языках, и в том числе с учетом их местных диалектов.

Похожие новости  Новозеландская частная космическая компания готовится ко второму тестовому запуску

Речевые интерфейсы становятся все более и более распространенными на самых разных платформах, однако их открыто выраженная неестественная натура звучания отталкивает многих потенциальных пользователей. Попытки компании DeepMind усовершенствовать эту технологию, безусловно, поспособствуют более широкому распространению таких голосовых систем, а также позволят улучшить пользовательский эксперимент от их использования.

С примерами английской и японской синтезированной речи с помощью нейронной сети WaveNet можно ознакомиться, перейдя по этой ссылке.

Hi-News.ru — Новости высоких технологий.

Добавить комментарий