Новый синхронный речи перевод от Google

Компания Google анонсировала новую модель синхронного перевода речи и показала результаты.

Translatotron

Данный перевод основан на обработке нейросетью спектограммы записи аудифайла (сквозная модель перевода). Это большой шаг вперед, так как ранее перевод с помощью Google Translate осуществлялся в несколько этапов (так называемая каскадная модель), включая автоматическое распознавание текста, затем перевод на целевой язык и озвучивание результатов речевым синтезатором.

Благодаря использованию сети кодировщика Translatotron, новая технология синхронного перевода сохраняет вокальные характеристики исходного говорящего в переведенной речи, что делает звучание перевода более естественным и менее резким.

Кодер Translatotron предварительно обучен выполнению задачи проверки динамика, обучаясь кодировать характеристики сигнала из короткого примера высказывания. Согласование декодера спектрограммы с этим кодированием позволяет синтезировать речь со схожими характеристиками сигнала, даже если контент на другом языке.

Аудиоклипы, представленные ниже, демонстрируют производительность Translatotron при переводе голоса оригинального докладчика в переведенную речь. В этом примере Translatotron дает более точный перевод, чем базовая каскадная модель. Translatotron, который сохраняет голос исходного говорящего, обучен с меньшим количеством данных, чем тот, который использует синтезированный голос, так что они дают немного отличающиеся переводы.