怀柔信息港
游戏
当前位置:首页 > 游戏

搜狗讯飞分获IWSLT2018评测到

发布时间:2019-05-15 02:02:13 编辑:笔名

10月31日上午,科大讯飞和搜狗两家公司几乎在同一时间,都表示自己获得了IWSLT2018国际口语机器翻译评测比赛的名。看到这个夺冠撞车的消息,让友们不禁产生了强烈的疑惑:又不是并列名(搜狗明确说明了击败讯飞),这一个比赛里为什么会有两个世界呢?

随后,我们通过IWSLT2018大赛官并对比两家的获奖,终于搞懂了这个一个,各自表述的缘由。

讯飞or搜狗,究竟谁是?

作为国际上影响力的口语机器翻译评测比赛,每年举行一次的IWSLT确切是拥有足够的地位份量,至今已经举行了15届。通过查阅名单可知,IWSLT 2018 有全球很多的机器翻译领域的研究机构参加。

地址链接如下,可自行查看:

从介绍来看,本届IWSLT 2018的口语机器翻译任务,是将英语演讲语音翻译成对应的德语文本。需要注意的是,这里所谓的翻译是把语音信号翻译成目标语言文本,并不是我们熟悉的文本到文本的翻译。也就是说,这个比赛所要评测的是语音翻译能力,正是之前科大讯飞曾闹出过人机耦合笑话的机器翻译技术。

本届IWSLT2018评测比赛中,搜狗与讯飞是在两个不同的赛道里分别夺冠,一个叫做baseline模型赛道,一个叫做端到端(end-to-end)模型赛道。

二者虽然都是,含金量的差别却很大。

对于普通用户来说,基本可以这么理解:IWSLT这场国际口语机器翻译评测大赛分为大师赛和新秀赛两个赛道。搜狗取得了baseline模型赛道的,这个赛道是目前主流的赛道,代表着实用语音翻译技术的水平,是本次评测的大师赛,目前市面上机器同传、翻译机等语音翻译类产品几近都采用了类似的方法,讯飞本次也参与了这个赛道,从官方给出的成绩看,讯飞以1.6个BLEU的劣势落后搜狗位居第二位。

另一方面,科大讯飞获得名的端到端(end-to-end)赛道属于本次评测新设置的赛道,各方面的技术都处于初级阶段,仍在沉淀和积累中,相当于本次评测的新秀赛,新秀是不是能成长为大师,仍有待长时间的检验,还没法代表行业主流水平,搜狗本次并未参加端到端赛道的评测,但其团队在之前多个技术交流中都曾透露过正在研发端到端语音翻译技术,并取得了阶段性突破,由此可推断,搜狗参与本次评测更多是检验自研的实用语音翻译技术在行业的位置。

详解两种模型的技术差异

作为目前主流的应用技术,baseline模型对应的语音翻译方案,包含语音辨认、机器翻译两大模块,采用的是多步走的流水线设计,即语音信号先输入语音识别系统(automatic speech recognition, ASR)得到源语言的辨认文本,然后再将辨认文本送入机器翻译系统(neural machine translation, NMT)输出目标语言的对应译文。

根据搜狗在知乎上的介绍(,搜狗同传系统就是baseline模型赛道对应的典型方案,整个系统共分为5个技术模块,除了语音辨认、机器翻译、语音合成3大技术模块之外,还新增了语音预处理和文本预处理两大模块,确保三项技术能够更好的联合优化,真正实现1 + 1 + 1 3的效果。

使用流水线方案的好处是,各大技术模块可以独立优化,充分利用语音辨认、机器翻译技术领域内的优化技术和海量数据,大幅提升单点技术效果,为了更加有效的将ASR和NMT两个系统连接起来,搜狗同传系统主要进行了两方面的工作:

1) 增加了文本预处理模块处理识别文本中的识别错误、口语化表达、语气词、文本不流利、断句等问题,将处理后的文本送到文本翻译模块进行翻译,实现了语音识别和机器翻译的有效结合;

2) 训练出语音辨认、机器翻译任务内的模型以后,引入联合训练机制,进一步提升语音翻译效果。

罗马不是一天建成的,搜狗在同传、翻译机等产品上对实用语音翻译技术的深耕和积累,在本次评测的成绩上得到了充分展现,官方公布的成绩上,我们看到搜狗以高达28的BLEU位居baseline赛道。

PS:BLEU是一种机器翻译自动评价的方法,是衡量方案优劣的重要指标,其数值越大意味着越准确。

官方公布的结果中,讯飞在端到端(end-to-end)赛道获得了。

端到端语音翻译技术,是指绕开语音识别、机器翻译等各模块单独优化的阶段,输入语音经过神经络变换直接输出目标语言的译文序列,并不会产生源语言的识别中间结果。其目的是将语音翻译系统简化到一个深度神经络中,减少辨认毛病等带来的翻译质量下降。

要注意的是,端到端语音翻译方案目前仍然处于早期学术研究阶段,训练方法和神经络具体结构都不成熟,同时由于(语音-目标语言译文)的数据对难以大规模采集,因此数据和模型优势没法构成有效的协同,效果提升收到很大的阻力。

现阶段,端到端(end-to-end)的方案基本没有办法进行商业使用和普及推广,但已成为未来可能优化语音翻译效果的方案之一。以科大讯飞这次夺冠的成绩来看,仅仅得到了19.4的BLEU,与baseline模型中的效果相差甚远,基本不具备实际的推行意义和商用价值。更何况,在讯飞夺冠的端到端(end-to-end)赛道之中,一共只有4支队伍而已,像是阿里巴巴和搜狗就压根都没有进行报名参赛。这两个赛道由于训练数据量的差异,各自BLEU值不具有直接的可比性。但是在baseline赛道,相同数据量的情况下,讯飞是实实在在的败给了搜狗。

所以说,如果IWSLT国际口语机器翻译评测大赛算是一场全明星大赛,那么baseline模型算是东西对抗级别的交锋。而新添加的端到端(end-to-end)项目,也只是一场非主流的新秀表演赛罢了。

由于科大讯飞在自家的获奖宣传中,有意无意的模糊了这一层技术差别。在这里,我们也并不想去论证科大讯飞的行为对错,只是单纯从技术分析的客观角度,给各位读者们分析IWSLT比赛里两个的分量区别,并希望这些中国的AI企业能够凭借本身的科研实力,获得更好的成绩。

总之,从同传造假门到再获世界,希望科大讯飞未来的AI之路能走的踏实些吧。

有什么治疗痛经的药物
更年期痛经的原因
月经过多喝什么好