“谷歌悄悄宣布TRANSLATOTRON直接语音到语音翻译模型”
谷歌翻译采用了内置的对话模式,可以帮助说多种语言的人进行对话。 输入英语等语音风格的消息,可以翻译成日语等语音。 但是,要实现这一点,首先要将声音分解为拷贝样式的单词,执行从拷贝到拷贝的翻译,然后使用良好的旧tts (从拷贝到声音的合成)播放翻译后的拷贝。 谷歌目前提出了一种新的方法translatotron直接语音到语音的翻译模式。
还在实验阶段,translatotron模型掉了中间人。 也就是说,它直接转换为声音输入,使用单个观察序列再生为序列模型。 根据谷歌的说法,这种直接翻译模式有几个特点,如更快的推理速度、不自然地识别和翻译之间的复合错误、在翻译后保存原说话者的声音以及更好地解决不需要的单词翻译等。
谷歌在关于这件事的博客复印件中写道,这种直接翻译模式的工作是从去年开始的。 一年后,全球知名安卓操作系统背后的开发者解释说,新的直接翻译更快、更高效。 根据谷歌的说法,translatotron以源谱为输入,生成所需语言的等效谱。 在训练过程中,序列模型采用多任务目标,预测源和目标转录本,生成目标谱图。 但是,谷歌写道,在推理过程中不会采用任何调书或其他中间复制表达。
谷歌现在有了新的翻译模式,但还没有准备集成到谷歌翻译和其他相关工具中。 新系统的蓝牙得分落后,意味着翻译不准确。 从好的方面来说,新模型在翻译后也会保存客户自然的声音。 这是为了避免在tts上输出。 谷歌表示,通过整合扬声器编码器互联网,translatotron可以在翻译语音中保存原说话者的语音特征,使翻译语音听起来更自然、不刺耳。
免责声明:晨报时代网免费收录各个行业的优秀中文网站,提供网站分类目录检索与关键字搜索等服务,本篇文章是在网络上转载的,本站不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,本站的小编将予以删除。
心灵鸡汤: