香港最快开奖现直播 88zzcc 香港管家婆官网 5585kj手机最快报码室c0m

BAT、谷歌的神经机器翻译真的就地表最强了吗?

  这期间发生的大事,是以神经网络作为基础的机器翻译,开始在全面超越此前以统计模型为基础的统计机器翻译(SMT),并快速成为在线翻译系统的主流标配。

  很多人为此欢欣鼓舞。回想去年,谷歌在中英翻译系统上部署了GNMT——谷歌神经机器翻译之后,当时网上有一句广为流传的话:“作为翻译,看到这个新闻的时候,我理解了18世纪纺织工人看到蒸汽机时的忧虑与恐惧。”

  但是先让咱们的小情绪平静一下。时过一年,市面上的NMT系统越来越多,国内的BAT、搜狗,国外的谷歌、Facebook、微软等都在布局。虽然翻译质量确有提高,但远没到上述引文中描绘的发生“质变”的程度。这到底是为什么?

  于是,我们选取了目前最有代表性的谷歌GNMT和屡获大的搜狗的SogouNMT,来摸索一下今经网络机器翻译的真实水平和进化空间。

  考虑到要求连贯性、语句准确的在线翻译技术,其应用场景无非两种:一是海外旅游、购物为代表的实时沟通场景;二是垂直领域的专业内容翻译(毕竟日常翻译需求查单词就够了),所以这里选取了一些旅游用语和专业论文,来检测一下SogouNMT和GNMT的翻译实力。

  此外,今年6月搜狗在发布翻译APP时表示SogouNMT的独门秘籍之一是翻译古诗词,所以我们也找来了古诗词与文言文来两个“小家伙”。

  从中可以看出,英译汉的语序调整大体正确,搜狗对汉语的语解更准确。但汉译英却没有那么乐观,对于表述比较口语化的“几率”,两个系统都没有表现出对上下文的理解能力。

  在二十一世纪初谈论互文性似乎不合时宜,自从Julia Kristeva将Mikhail Bakhtin引入世界以来,已经有四十年了。

  在二十世纪初开始谈论互文性似乎是不合时宜的,近四十年来,从Juliakristeva引进米哈伊尔·金到世界第一次出现。

  自四十年前朱丽娅·克里斯蒂娃在介绍金思想时首次将互文性概念引进世界以来,到21世纪初的今天再针对“互文性”进行讨论已经显得有些不合时宜。

  从长句子的翻译上看,中英之间的语序调整还是大问题。而且语序引发的意义差别会影响整个翻译的结果。另外汉译英中,谷歌表现稍微好一点,搜狗出现了很严重的漏译。值得肯定的是,二者对专有名词的翻译都比较准确,但是人名库显然还不够大。

  暮投石壕村,有吏夜捉人。老翁逾墙走,老妇出门看。吏呼一何怒!妇啼一何苦!

  可以看出谷歌对古诗词的理解确实不如搜狗,比如妇啼一何苦搜狗翻译长了“old women”应该是对应上了前文。再比如“夜捉人”变成了“catch the night”似乎不如搜狗的贴边。当然了,两边对于“逾墙走”这类表达都无法准确理解,另外搜狗完全漏了石壕村。

  另外还有一种情况,翻译过程中根据词的表面意义直翻的现象比较严重,并且应该是在算法的下组成句子。而这种翻译模式下,漏翻现象会很严重。

  首先,中英文之间的语序对调,也就是机器翻译中的对齐问题还是没有得到妥善解决。

  其次,在于神经网络翻译应该会根据算法自己生成整句内容。这是因为算法把句子当做单独的序列,所以无论短语和单词是否正确,都必须生成句子。并且,语位关系与动词的翻译经常出错。

  当然以上只是根据我们的实验得到的特征,不一定全面和准确,但似乎确实说明了神经机器翻译没有那么神,甚至有一些技术迭代后出现的新问题。

  目前来看,神经网络机器翻译未来很长时间都会处在主要。并且可能会短时间内不断突破。而针对分析到的问题,有一些解决方案可以作为比较高效的补充,也许这些会成为神经网络翻译企业接下来的重点战场。

  这里探讨的是以其他技术力量完善神经网络机器翻译的方式,说不定其中某项会成为促进真人翻译进一步失业的“钥匙”:

  一、引进NMT以外的人工智能技术:巧合的是,近两年关于机器翻译的技术突破往往来自其他人工智能领域。比如注意力模型,是来自Deepmind在机器视觉领域的技术构想。主动引入其他领域的算法和模型,或许在翻译领域有神奇的效果。

  二、建立机器学习使用的用户数据库,激发互动:在机器学习的原理当中,对错误样本纠错往往是最好的学习途径,但翻译上的纠错行为显然是企业难以完成的。调户主动纠错翻译结果,并以之建立数据库,或许常便捷的办法。

  三、尝试优质训练资料下的弱监督学习:目前的NMT体系,归根结底是个有监督学习过程,很多所谓“莫名其妙”的翻译结果都来自翻译机制无法优化。尝试一些深度学习架构让翻译系统优化,也许是个解决方案。

  四、垂直领域语料数据库&数据抽调系统:解决具体的专业领域,甚至文言文的中英互译(当然也包括英文的诗歌和文学文本),其实也没什么特别的办法,拥有强大的垂直领域数据库是硬实力,当然好的数据抽调模型会事半功倍。

  神经网络机器学习,还是个标准的新生事物。业界愿意选择它只是因为它比此前的方案更优化,也更有发展潜力。绝不是因为它一出手就秒杀,达到了取代人类同行的地步。