Компания Google анонсировала новую модель синхронного перевода речи и показала результаты.
Благодаря использованию сети кодировщика Translatotron, новая технология синхронного перевода сохраняет вокальные характеристики исходного говорящего в переведенной речи, что делает звучание перевода более естественным и менее резким.
Кодер Translatotron предварительно обучен выполнению задачи проверки динамика, обучаясь кодировать характеристики сигнала из короткого примера высказывания. Согласование декодера спектрограммы с этим кодированием позволяет синтезировать речь со схожими характеристиками сигнала, даже если контент на другом языке.
Аудиоклипы, представленные ниже, демонстрируют производительность Translatotron при переводе голоса оригинального докладчика в переведенную речь. В этом примере Translatotron дает более точный перевод, чем базовая каскадная модель. Translatotron, который сохраняет голос исходного говорящего, обучен с меньшим количеством данных, чем тот, который использует синтезированный голос, так что они дают немного отличающиеся переводы.
Справочный перевод (английский):
Базовый каскадный перевод (синтезатор):
Сквозной перевод (синтезатор):
Сквозной перевод (оригинальный голос говорящего):
Новость: Introducing Translatotron: An End-to-End Speech-to-Speech Translation Model.
Translatotron
Данный перевод основан на обработке нейросетью спектограммы записи аудифайла (сквозная модель перевода). Это большой шаг вперед, так как ранее перевод с помощью Google Translate осуществлялся в несколько этапов (так называемая каскадная модель), включая автоматическое распознавание текста, затем перевод на целевой язык и озвучивание результатов речевым синтезатором.Благодаря использованию сети кодировщика Translatotron, новая технология синхронного перевода сохраняет вокальные характеристики исходного говорящего в переведенной речи, что делает звучание перевода более естественным и менее резким.
Кодер Translatotron предварительно обучен выполнению задачи проверки динамика, обучаясь кодировать характеристики сигнала из короткого примера высказывания. Согласование декодера спектрограммы с этим кодированием позволяет синтезировать речь со схожими характеристиками сигнала, даже если контент на другом языке.
Аудиоклипы, представленные ниже, демонстрируют производительность Translatotron при переводе голоса оригинального докладчика в переведенную речь. В этом примере Translatotron дает более точный перевод, чем базовая каскадная модель. Translatotron, который сохраняет голос исходного говорящего, обучен с меньшим количеством данных, чем тот, который использует синтезированный голос, так что они дают немного отличающиеся переводы.
Примеры синхронного перевода
Речь человека (испанский):Справочный перевод (английский):
Базовый каскадный перевод (синтезатор):
Сквозной перевод (синтезатор):
Сквозной перевод (оригинальный голос говорящего):
Новость: Introducing Translatotron: An End-to-End Speech-to-Speech Translation Model.