神经网络机器翻译作为当下最热门的翻译方法,已有了极大的突破和发展。但由于收集大规模并行数据的成本过高,因此就将需要大量的平行语料的任务交给了低资源机器翻译。

本次圆桌论坛围绕着由“低资源机器翻译“展开的三个话题进行深度对话,邀请了微软亚洲研究院高级研究员和研究助理刘树杰、哈尔滨工业大学计算机科学与技术学院助理教授陈科海、字节跳动科技有限公司机器翻译业务负责人王明轩、腾讯公司人工智能实验室高级研究员王星和大家一起思考探讨。废话不多说,欢迎畅游这片知识的海洋!

1.如何定义“低资源”这个机器翻译场景

主持人:刚才陈科海老师已经让我们了解了什么是低资源机器翻译,那接下来的讨论都是与之相关且更深入的话题,首先我们来看第一个问题“如何定义‘低资源’这个机器翻译场景”,有请各位老师踊跃发言。

王明轩:提到低资源,传统意义上的理解大多是稀缺的语种。比如对于中英来说,国外的冰岛语、芬兰语,国内的少数民族语言就是低资源。但从企业应用的角度来说,我们会把这个概念扩大。任何场景都存在低资源,即便是中英,在一个具体的领域也可能是低资源。比如医疗领域,即使有很多中英数据,但在医疗领域的数据却很少,那对中英来说,医疗领域就是低资源。对于多模态翻译也是一样,即便有很多数据,但在语音翻译或者图片翻译领域的资源比较少,也属于低资源。从企业应用角度看,下游的任务和上游的训练数据只要不匹配,那它就属于低资源问题,类似于领域偏移,当然也包括了多语言,所以这个概念会变得很大。实际应用中我们会发现绝大多数应用天生就是低资源,即一个新的领域或者一个新的应用场景,以字节为例,像办公领域、娱乐领域。所以做好这块儿的基础研究是十分重要的。

王星:学术界在发表低资源相关论文时,喜欢将英语和罗马尼亚语作为一个低资源的场景。英语到罗马尼亚语的单语数据大概在两百万左右,非常充足,但是他们会把这作为低资源的标配场景,做一些工作。但在项目落地中,像刚才明轩提到的一样,有两个问题。一个是我们标注的数据很少。有两个场景,第一个场景是业务落地的时候做领域翻译,但缺失领域数据。比如说我们想做金融领域,并不知道从哪里去获取一些金融领域的双语数据。另一个场景是领域的划分非常细致,同样是金融领域,可能有的需要金融财报翻译,有的需要金融新闻翻译,导致数据获取的难度更大,因为我们也不清楚到底是需要财报还是金融领域的数据,所以这就会形成低资源。再从多语言的角度来讲,当我在做多语言落地探索的时候,发现有些语言的双语标注资源是非常少的。像英语到罗马尼亚语的两百万数据,我个人认为还是比较充足的。像中文到缅甸语的数据,到公开语料里去找,其双语数量可能不到十万句。

第二个比较严峻的问题是,学术界认为如果低资源中的单语数据是充足,可以使用单语数据。但项目落地的时候发现缅甸语的单语数据也特别少,如果再做一些过滤就会变得更少,这给项目的落地提出了一个更加苛刻的条件。

刘树杰:我从学术角度来说一下。我觉得并非双语句对少就是低资源,而是翻译信息的获取以及获取的方式比较少或者说很难获取到的场景才算低资源。为什么我持这个观点呢?因为在无监督机器翻译里面,如果你把WMT的几百万甚至上千万的双语数据打散,然后不让它以双语数据的形式出现,把它当成单语数据然后用无监督机器翻译的方法去做。其实它的性能已经接近于supervised训练出来的模型,那这个场景是低资源吗?我认为不应该称它为低资源。因为它的翻译信息仍旧存在,而且可能存在一种方法,通过ipet data来获取翻译信息,因此我认为这种场景不算低资源。简而言之,我对低资源的定义是就是翻译信息比较少,或者很难获得的情况。

陈科海:我也从学术研究角度来谈一下。我刚才在报告里也提及到了这一点。第一,从数据的构建来说,现在的丰富资源,基本上都是以英语为中心的。我们可以构建以中文为中心的低资源数据集去做一些工作。我还有一个观点,就是更希望能够把这种低资源跟具体的应用场景去结合起来。前面也有老师说了,数据标注的缺失即标注代价高就是低资源。报告中我也提到了两个应用场景,手语翻译和实时语音翻译。比如国内中文到少数民族语言的机器翻译,几乎没有涉及到手语和语音翻译。如果我们能够在这一方面做初步探索,标注出一部分少量的数据集,然后我们在这个数据集上做出一些工作成果,将会是一件非常有意义的事情。

主持人:好的,各位嘉宾都表达了自己的观点。总结一下,可能就是针对语各个语言、各个领域、各种情境,大家对于低资源的定义有些不一致,包括有监督和无监督方面。那我就抛砖引玉,说一个比较固定的情境。假如说我们现在发现了一个石碑,石碑上有一种新的语言,也有一些平行语料,同时这种新语言在文献中也有一些相应的单语语料,那请问各位在以上情况下,需要拥有多少单语语料和双语语料,才可以定义为它是低资源。

王星:我觉得十几万的双语数据应该算是低资源了吧。就像我们做中缅翻译的时候,大家也看不懂缅甸语那一堆歪歪扭扭的字,而且双语语料只有十万句。这种情况如果直接去推模型,效果就不会特别好。然后单语语料这块儿可能王明轩老师更有见解。

王明轩:相对于这个学术界来说的话,低资源在企业界反而会做得更简单粗暴一些,可能我们做的绝大多数事情就是把低资源转换为丰富资源来解决。这块儿研究的技术挑战就是大家如何去解决低资源问题,本质上还是靠迁移学习。比如说把法语的knowledge 迁移到德语,或者无监督翻译,还是需要借助迁移学习或者预训练来解决。但我觉得有一个非常重要的问题被忽略了,就是小样本学习。举个例子,从人来看的话,翻译可能不需要那么多双语句对,一万句或者十万句就足够了。但就统计机器翻译和神经机器翻译来说,需要大量甚至海量的语料。我觉得研究这块儿的人反而少一些,有取巧的成分在里面。当我们研究一个中英的低资源机器翻译时,需要一万句训练语料,大家就会想办法怎么从其他地方借点knowledge过来,通过找更大的法语语料或找更多的单语语料来解决问题。而不是说只有一千句,去寻找其他的方法更高效地利用这些knowledge,或者限定为一万句的平行数据,将其做出高质量的成果,不走取巧的路。倘若这个问题被解决了,也就意味着能够本质地解决更多的问题。

主持人:谢谢两位老师。然后针对于刘树杰老师提一个问题,无监督机器翻译的真实场景中存在着这样一个问题,就是单语语料比较多的语言,其语言对一般都会有大量的平行语料,比如说英法、英德、英语-罗马尼亚语等等,它们的平行语料量是足够的,刘树杰老师您看总是在单语语料充足的语言中做无监督机器翻译会不会和低资源有所违背呢?

刘树杰:现在的无监督机器翻译就像刚才说的,都是用WMT的双语数据把它打散,然后去充当没有任何数据的模拟情况。然而在真实需要进行无监督机器翻译的时候,反倒找不到大量的单语数据。所以工业界好像确实没有无监督机器翻译去搭建机器翻译系统的。在没有任何双语数据的情况下,大家会采用训练一个Multilingual Encoder-Decoder模型再基于该模型产生伪数据的方法去做,而非抽取双语词典进行训练。实际上,这对一些无监督机器翻译在工业界的具体应用也是有帮助的,如文本风格转换、代码翻译等,不过可能现在通过这一整套流程来搭建系统的做法确实不多。

2.如何对低资源机器翻译这个场景进行研究和应用

主持人:下面我们开展第二个话题“如何对低资源机器翻译这个场景进行研究和应用?” 各位可以谈一下自己在具体场景中遇到的技术挑战,以及相应的解决方案。

陈科海:我觉得技术挑战在于低资源数据的量,或者说在低资源提供这种有限的数据量当中能够学到多少知识。我们以前做过多模态的相关工作,它对一个三万的平行句对进行了图像标注,然后形成了一个多模态的数据集,这种只有三万的多模态数据相对于大规模的数据集(比如英德、英法)来说是非常小的,于是我们想能不能把多模态信息运用到大规模的纯文本机器翻译上。我们当时提出了一个方案,采取通用的视觉表示方法,在少量带有图像标注的数据集当中去学习一种词图对应映射表,然后把这个映射表迁移到大规模的纯文本上去,从而打破数据标注的束缚,使视觉图像信息可以迁移到大规模地纯文本机器翻译,这就是我们当时探讨的一个解决方案。

主持人:陈科海老师回答得非常专业,我想看一下企业怎么应对这个问题。如果只有一万句的平行语料,从构建一个NMT、SMT或者其他系统来说,它的技术挑战在哪里?

王明轩:如果拿到一万句的平行语料的话,那接下来就是更高效地标注数据,比如说用主动学习去标注一些更有价值的数据,从而缓解资源的稀缺问题。同时也会借助预训练、回译之类的来造数据,包括刚才可能也没有提到的,我们也会在网上寻找数据,然后在此基础上再继续下一步。其中也存在一些挑战,学术圈做实验时会模拟稀缺资源,比如德语、法语、英语等常用语言。在实际情况中,可能会得到不太理想的结论,因为很多语言尤其是稀缺语言,它甚至都不是拉丁语系的,就correct level都share 不了多少信息。那么这种情况尤其是在多语言下做的预训练也不确定是否有效,甚至会更难。这块儿在无监督机器翻译上是有一些结论的,我记得2018年emnlp有篇文章也提出了类似的观点,认为dissimilar language做无监督机器翻译会更难。

另外一个就是说如果真的限定只有一万句的平行语料,那么这也是一个很本质的问题。因为现在可能整个神经翻译系统都是从数据里面去学,需要大量数据才能学到,在现有的框架下很难绕开这个问题。我之前有想过一个办法,就是能不能把词典做得多一点,数据少一点,对于一个稀缺语言,我们可以很快地去构造一个词典加上单语数据,当遇到没有平行数据的情况下,看能不能采用这个办法去做机器翻译。包括bert 和预训练的结合翻译,在低资源这块儿也是非常有潜力的,因为GPT已经有非常强的生产能力,bert也有非常强的表达能力。

何中军:就如同王明轩老师所说,如果以企业应用的角度来解决低资源问题,就是尽可能地去扩大资源以收集更多的数据。因为不管是从技术角度还是训练角度来讲,都不如直接扩大数据来得更快。你去收集更多的单语数据也好双语数据也罢,像中英这种所谓的高资源,数据量上去以后的效果非常明显,所以把扩大数据资源作为优先选项。刚才有人也在问“低资源更重点强调数据吗?像阿拉伯语作为22个国家的母语,在国内使用率很低,这种算不算低资源?对于研究阿拉伯语的人来说,国内还没有较好的双语平行语料,且很难找到。” 大概意思是阿拉伯语算不算低资源?我觉得低资源除了从数据的数量上去衡量以外,数据的质量也是非常重要的一个方面。即便有些资源的双语数据很多,但是它的噪声非常大,倒不如有些数据量规模可能不大但质量非常好的。甚至一些所谓的高资源数语言在经过大量数据训练以后,用一些少量而优质的数据去训练,其效果也得到明显提升。就这个问题而言,像刚才这位老师提到的阿拉伯语,在机器翻译来看的话,中文-阿拉伯语的数据还是比较少的,算低资源。

我顺便做一个预告,在低资源这个方面,我们正好也跟西安交通大学联合做一个一带一路低资源竞赛,同时也发布了一些相关的数据和信息。这个项目即将启动,包含有中文、阿拉伯语、法语、俄语、泰语等语种,相当于构建以中文为核心的低资源数据集。大家也知道很多的国际比赛,像WMT都是以英文为核心的。我们希望能够以中文为核心去关注从中文到其他语言尤其是低资源语言的翻译质量,在这个方面作出自己的贡献,也欢迎大家来关注这个比赛。

主持人:非常感谢何老师!我觉得这个数据集能够公布出来的话是一件非常有意义的事情。目前基本上都是以英语为核心的,日语那边也在做一些类似的东南亚语言的比赛。但中文的确比较少,所以这个竞赛应该非常有意思。正好有观众提出了和刘树杰老师演讲相关的问题“如果单语量比较丰富,双语数据比较少的话,这种情况算不算低资源?”树杰老师能否为这位观众讲解一下?

刘树杰:这个问题实际上跟我前面举的那个例子比较像。就是假设无监督机器翻译用的数据是WMT里的双语数据,把它打散但是不保留任何双语句对形式,那这种任务算不算低资源?实际上这种任务的翻译性能和supervised(有监督)模型训练出来的性能差不多。这种情况的话应该不算是低资源,尽管它的翻译信息并不是以双语句对的形式出现,但实际上单语数据里面已经包含了互译信息。所以这种单语资源比较丰富,双语数据比较少的,因为源语言和目标语言的单语资源领域是比较一致的,它们描述的事情也是比较一致的,这就相当于我说的那种将WMT数据打散,这种情况不算低资源,因为它的互译信息是存在且容易获取的。假设你的单语数据,源语言是在描述企业,目标语言是在描述政治,那这种就属于低资源,原因是单语数据描述的事情不一样,获得的翻译信息也比较困难。

主持人:我觉得刚才刘树杰老师最后的回答也能够给另一个问到关于联合国语料有很多是阿拉伯语的观众解惑。没错,阿拉伯语是联合国的官方语言之一,但联合国的文件更多的是偏政治性的,在新闻以及其他领域,相对来说资源仍然比较稀缺。那最后压力来到了王星老师这里,您还有什么新的想法吗?

王星:那我讲讲自己在寻找低资源的解决方案中的一些痛苦。一个是我跟王瑞老师还有王明轩老师一起参加了一个(WMT低资源)比赛。在做高资源的时候,比如说中英、英德,在模型训练和模型评价的时候虽说只是看BLEU,但也可以人工干预,根据翻译情况来判断结果的好坏。还有就是我们的测试集非常标准,性能也比较可靠。但我做低资源的时候有疑问。第一,何中军老师提到的双语数据无法得到保证,因为研究人员有可能看不懂某个语种。由于是低资源,谷歌翻译也不是特别准,因此这块儿我不清楚怎么做数据评价。第二个是做模型评价,因为有时候很难获得低资源的测试集。最近还好,因为Facebook公开了一个特别大的测试集(Flores-101),如果没有这个测试集的话,拿什么数据做测试集,包括我们在WMT比赛的时候,会发现利沃尼亚语开发集特别小,只有六百句,我无法判断从六百句中评价出来的模型的好坏。关于这一点,学术界没怎么探讨,但在落地的时候却特别关键。因为一旦缺少语句背景,就会对数据质量、模型评价等方面造成影响。如果做一个我懂的语言比如中英,就知道哪些关键词或者地方翻译错了会影响用户的体验,然后做出针对性的解决。那如果我看不懂低资源语言,这对我来说就是一个很大的挑战。

主持人:对,我之前也思考过这个低资源问题,当时第一想法就是让我从头开始做的话,低资源的语言对可能连测试集都没有。所以第一步应该是标注测试集,那企业都会怎么去选择标注的方法呢?

王星:企业的话会花钱找专业人士帮忙去做数据标注。但又会遇到一个问题,他们标注出来的东西,我也不知道他们做出来的测试集到底是好还是坏,因此需要多请几家对比一下他们的测试集是否一致。

3.低资源机器翻译将来的研究趋势是什么?

主持人:接下来我们进行最后一个话题,低资源机器翻译将来的研究趋势是什么?其实从学术研究的角度来说,以低资源机器翻译为研究主题的文章数量一直都很多,那之后的研究点是什么,以及企业应用的角度是什么?

陈科海:首先第一点是从学术研究的角度来说,我希望能够探索面向低资源场景去自动化地标注高质量数据。这是非常有意义的事情,且能够很大程度地解决低资源问题。第二点,模型的鲁棒性。相对于丰富资源,鲁棒性在低资源中的存在更为关键。就模型本身而言,虽然前期我们会使用伪数据来做,但是最终我们还要对其进行微调和再训练,希望可以得到真实原始的数据。这就面临一个问题,它的原始数据规模是非常小的,那我们如何去确保鲁棒性呢?第三点,对这些大规模的单语数据,不管是回译还是经过预训练,尤其是预训练,这种大规模的训练数据中隐藏着复杂的文化背景信息等,如果是以英文为中心,那将会得到偏英语的语言风格和表达方式,经过大规模训练的模型记录的信息都是具有一定英语语言特性及特色的。那么对于目标语言来说,这种影响它会或多或少地传递到目标语言当中去。在低资源场景下,我们如何平滑掉在这些大规模的单语数据中隐含的潜在的语言特性。以上就是我谈的三点。

主持人:那我提一个比较尖锐的问题,如果从学术研究的角度来说,针对这三个问题,你是构建一个新的语料库,还是说在已有的语料库里接着往下做。

陈科海:我更倾向于构建一个自己的语料库。然后再去这个语料库上面进行探索。这样比较好,因为这个任务是由创建者主导的。当然要是有人觉得自己创建一个语料库的工作量比较大,也可以退而求其次,虽说是别家做的东西,但我们把它拿过来发扬光大,也不是不可以。

主持人:我觉得我们也可以用一些新发布的语料,比如刚刚何老师他们要发布的一带一路低资源的语料。

陈科海:对,我是非常期待刚才何老师说的赛事。我们应该去构建以中文为核心的低资源场景。然后我这儿一直有个疑问,刚好借着这个机会问一下工业界的老师,在你们企业中,这种低资源场景都有哪些?如果方便的话可以分享一下。我觉得以具体的应用场景为驱动来展开我们的上层研究,可能会更好更有动力一些。

何中军:从具体的应用来看,可以很明显的感受到,多语言的低资源的翻译需求是越来越旺盛了。举个例子,你有一款产品要卖给很多个国家的客户,你希望可以收到这些客户的反馈。这个时候可能会有二、三十个国家,你不可能找懂二、三十种语言的人,一个一个地翻译,那不太现实。可以先使用机器翻译将用户评价翻译出来,然后再用已有的中文或英文的分析系统去做分析。所以现在机器翻译变成了很多大型项目或者是大的产品的前置的一个模块。即先翻译后分析。相对来说,这种情况对翻译质量的要求不太高,不需要在90%以上,能够读懂,可供以后分析就行。这是一种场景。

还有一种场景,假设我是媒体人员,每天都需要了解一些其他国家或者其他语言的信息,对大量的外语翻中文的信息进行再加工,然后采编或者报道。这时候我就希望能够有一个机器翻译系统去翻译这些语言,翻译完了我再粗略地看一下,掌握了大概的信息之后,再去做进一步的处理和加工,这也是很典型的场景,且低资源的应用场景远不止这些。所以我认为低资源的翻译需求从市场应用的角度来看是非常迫切的,也希望大家多多关注这方面。

王明轩:我很同意何老师的意见。实际中,多语言的翻译需求还是挺大的。一个主要的逻辑是,中英之类的语言并不缺人工翻译,资源的获取是很容易的。而那些不常用的语言,也许它的需求量不大,但非常需要机器翻译。一方面,人的意愿不强,公司对这些语言的翻译质量的要求不高。那么这种情况下,机器翻译能够发挥更大的作用,所以这块儿的需求越来越多。然后另外一个的原因是,其实这几年整个国内公司出海,在海外的业务其实也越来越大。因此我认为整个市场的需求还会持续的变大,尤其稀缺的语言。当然还有非常重要的一点,就我们从普适价值去看,虽然很多语言的用户很少,但从公平性等各种角度来说,越是稀缺的语言,我们反而应该越支持,促进这些语言的发展。所以我觉得何老师他们发布的数据集是非常务实的工作,能够让这些语言发展得更好。

刘树杰:我非常赞同何中军老师跟王明轩老师的意见,确实语种的稀缺对翻译服务来说是非常重要的,这也是机器翻译领域中每个企业需要重视的地方。我还有想补充的几点,一是有一些特殊的翻译场景,比如会议里面的翻译场景,会结合slides和语音,然后内容翻译场景的话,这种多模态翻译,目前基本上都是ASR识别后再翻译,但它并没有结合我们的slides,也没有结合会议的主题、视频等其他信息。因此这种特殊的任务数据会比较少,但这个任务对于一些会议场景的服务来说是比较重要,这算是一种比较典型的多模态翻译场景。还有就是现在的语音的端到端的翻译也变得越来越火,只不过端到端翻译的数据同样比较少。

张民:关于这个机器翻译,其实大家讨论的无论是低资源还是高资源,它的应用前景都是非常巨大的。从高层次角度来讲,百分之九十的互联网信息都是英文,而中文连百分之十的信息都不到,我们就觉得这个信息量已经很巨大了。但是你想想外边有百分之九十的世界,对咱中国的老百姓来说,绝大多数都不了解,那还是基于中国这么发达的互联网环境而言。如果从全社会角度来讲,我们的理想是让中文信息在互联网中能够实现无障碍沟通,这是机器翻译的一个重大责任和历史使命,也是整个社会的一个历史使命。第二点,如果从具体需求角度来讲,简单地举个例子,阿里巴巴电商的机器翻译,在阿里巴巴整个商业体系里承担着巨大的责任,每天的翻译量应该是几千亿的字或者句子,所以大家可以看出阿里巴巴在电商领域的巨大贡献。如果说没有机器翻译,我相信就没有跨境电商今天的发展。还有个例子就是我们国家也有重大需求,无论是外交、经济还是情报等等,这些信息量也都是巨大的。所以你能够想到,以语言为依托的,除了刚才大家讲的这些产品出海,包括回过头来能不能对市场调研、用户评价做一个舆情监控,还有对外文化、旅游、学习等方面的交流。同时语言又是信息的载体,所以机器翻译的意义和应用价值是毋庸置疑的。

主持人:非常感谢张民老师指出了我们这一代人需要做的任务,尤其是以中文为核心的机器翻译。刚才我也在想,从英文的角度来说很多都是高资源,比如说英法、英德、英日……但是如果以中文为核心,如何中军老师说的,哪怕是高资源如法语、日语,中法之间的语料、中日之间的语料都是非常少的。那各位能不能针对张老师给我们提出这个期望谈一下,以中文为核心,我们应该怎么尝试着去做,不管是企业还是学术界。

王星:怎么做我还没想好。但就接着刚才那个问题说一下,就是企业里低资源的需求到底有多大。我个人觉得在未来的话,对低资源包括这些小语种的需求会越来越大。因为有这么一些现象,从公司层面来讲,像产品公司,它有两个硬性需求。一个是游戏出海,他希望把游戏推到海外,拓宽海外市场,那许多低资源国家如东南亚那边就是很重要的客户。第二个是网文出海,需要把我们国内的网络小说,翻译到低资源国家包括南美、东南亚这些地方。从我个人角度来看,我认为基于欧美和中国现在的大环境,我们在输入英文方面多多少少会受到一些限制。还有现在国家希望互联网企业走出去,近几年很火的虾皮电商就是成功案例之一,由于东南亚地区的经济发展比较快,同时也带动了对翻译的需求,因此我认为东南亚这块就是颇具潜力的海外市场。

主持人:何老师,我觉得您在一带一路的这部分工作就非常契合这份期望,而且百度应该也是最早提出中文机器处理,包括中文NLP 的企业之一。那您觉得中文的一带一路的低资源机器翻译走向应该是一个什么样的技术或者说一个什么样的研究方向。

何中军:刚才张老师说的特别好。确实是世界需要听到中国的声音,而且我们现在的目标是要加强中国的国际传播建设。其实我们应该摆脱所谓的都是以英文为核心的国际竞赛,就像以前欧盟建设的一个英文到其他语言的会议。我觉得随着这个技术的发展也好,时代的发展也罢,我们应该建设以中文为核心的数据集,倡导以中文为核心的多语言低资源翻译。正好今年我们跟西安交通大学、中国工程科技知识中心、联合国的科文组织共同举办一带一路国际大数据竞赛。这个国际大数据竞赛,今年首次以机器翻译为议题来设置的,开展机器翻译的评测任务。我们申请了几个具有代表性的语种,向中东申请了阿拉伯语,东南亚的泰语,还有欧洲的法语。同时还发布了一些数据集,当然因为是低资源,数据集不可能很多。今年是第一次举办,我们也呼吁大家积极参与到其中,建设我们自己的以中文为核心的数据集,并且在这个数据集上去做中文到其他多语言的翻译工作,无论是从技术上、数据上还是应用上,都会把我们的多语言翻译提升到一个新的高度。

主持人:非常感谢何老师,我们也十分期待这次竞赛。如果有机会的话,我个人是很想去参加的,看一下大家如何做这个。其他的几位老师还有什么自己的想法,比如说科海老师,你觉得以中文为核心的低资源机器翻译和以英文为核心的机器翻译之间有什么区别和联系吗?

陈科海:这个我还没想好。不过我听了几位老师说的之后,个人感觉中文的机器翻译,它不是一个单纯的场景,而是跟其他任务相结合的。后面我们中文可能走这个方向,用我们平时讲的专业术语来说就是多任务学习。把这些信息结合起来去做可能会更好,这是我目前自己的一些想法但不一定对。

主持人:好的谢谢。那明轩我们知道抖音在国际上的影响力是很大的,各种弹幕或其他注释等等,翻译也非常多,这些也是中文机器翻译的核心任务之一。你们在这方面的经验可以分享一下吗?

王明轩:对,我觉得刚才何老师有句话说得特别好,非常振奋人心,就是让世界倾听中国的声音。我觉得这部分的机器翻译还挺重要的,因为抖音包括tiktok都是一个平台,大家都可以在里面发声。但这块儿有一个很重要的问题就是,中国人可能在里面讲中文或者做直播,那么国外人怎么去消费呢?我们现在也在看一些机会,和一些外面的MCN合作之类的。像同传翻译、语音翻译,我们可以一边讲述中文,然后同步出现英文字幕或者英文声音,完整地做出一套硬件之类的东西。在这种情况下,中国人的发声会更容易地为海外人所了解,因此我认为这块儿跟机器翻译就是一个很好的结合。

那与之相对应的是,我们中国也需要去更多地倾听海外的声音。举一个简单例子,就前一段时间日本首相遇刺,其实抖音上第一时间就直播了日本官方报道这件事情的电视台,同时也用了我们的同传系统,大概有三千万用户通过这个直播去了解日本对这件事情的报道的情况,当然这块也用到了日文到中文的翻译。一方面说明了这种突发事件的实时报道是非常重要的,另一方面就是说现在的翻译质量也经得起考验了。

主持人:我们最后再问一下刘树杰老师。

刘树杰:我们这边的张东东老师也在做以中文为核心的机器翻译。它的名字跟我们会议名称是一样的叫CCMT,这两个话题正好重合了。我们目前正在做以中文为核心的机器翻译,所以何老师你们的数据集如果发布出来了,我们也可以评测一下。然后我们的这个项目,实际上也用了很多方法,生成了很多伪数据。对比微软做的跟中文相关的翻译,我们这边在性能上的提升还是非常明显的。同时我们也在做一些相关的努力。


前沿趋势论坛的精彩内容分享就到此结束啦,小伙伴们是否仍意犹未尽呢?那就快来关注我们机器翻译学堂,更多惊喜等着你哦!