智库论辩:机器翻译VS人工翻译
序言
王继辉
朋友们不时为时间的飞逝而大发感慨。拿已有十余年历史的中国职业翻译教育来说,当年曾踌躇满志地主动担负这一历史使命的人们,如今大多已两鬓斑白,有的甚至转成了退休教授身份。我们这些见证其开端,参与其发展,赞叹其硕果的朋友们,每每追忆起以往经历,感慨必由心生,这是正常的自然法则。的确,参与其中的朋友们从奓着胆子承接生疏任务到主动探索新的发展之路,从单纯传授双语转换技能到积极拥抱翻译智能技术,从坚守学者型独立翻译空间到参与规模化项目资源管理,从各校各学科各语种独自开发到跨校跨学科跨语种的联盟运作,从文字翻译单一教育到语言服务整体规划,从西学东渐型译介到外向型中国文化外译,从翻译硕士专业学位教育到包括学硕博的翻译教育体系全覆盖,这个复杂过程中的每一步无不浸透着翻译教育者和语言服务从业精英们的执着、汗水与智慧,每一步都充斥着经历者的理想、信念与奉献,我们的喜悦与骄傲是值得追忆的,也必将敦促来者们努力前行。
本期针对“机器翻译VS人工翻译”推出语言服务40人论坛两位专家的文章,其中观点相悖,但各有千秋。作为智库成果,供大家参考。
借此机会,我代表“博雅翻译文化沙龙”及“语言服务智库”周刊向赐稿的朋友们表示谢意,并期待着与大家一起为我们的共同事业进言献策,为各界朋友们多做一些力所能及的具体工作。是以序。
2019年7月21日
于北京西二旗亦神斋
专业机器翻译替代人工翻译:可能性与新任务 ——兼与李长栓教授商榷
蔡基刚
一、机器翻译的语境化
李长栓的文章之所以比较悲观,原因之一是他在阐述和论证时基本上脱离了语境。比如,文章举例mission一词,它当然在词典里有很多意思。但任何词都是在具体语境里出现的,小到句子和语篇的上下文,大到这个词出现在政治、外交或生物领域里,机器和人一样都会根据特定场景及背后的相关语料库进行鉴别和取舍,准确翻译出该词在特定语境下和特定上下文中的意思,根本不会出现是“使命”还是“使团”的纠结。同样,在英语defendants是翻译成刑事语境下的“被告人”,还是翻译成民事语境下的“被告或原告”这一问题上,李长栓担心“这些微小差别,更不能指望机器分辨出来”。我认为,这种担心犹如担心机器翻译无法解决如打球、打赏、打牌、打脸、打针,打毛衣中“打”字的歧义,这是没有根据的。机器翻译完全可以将其分辨出来。
机器翻译(NMT:Neural Machine Translation)的根本原理就是语境化,即根据语境化原则建立海量的分门归类的语料库。以法律机器翻译为例:首先确定法律的各种语类(genres),如法律合同、法庭判决书,法律诉讼书等大类,在法律诉讼书下再细化,分民事诉讼书、刑事诉讼书或军事诉讼书等次语类次语域。然后,按照次语类(genres)开始收集语料进行建库。语料库有双语翻译对等语料库(translation equivalent corpus),即输入以往所有已完成的互译文本,和双语平行对等语料库(parallel register corpus),即输入尽可能多的、没有经过翻译的同一主题、同一语类的两种语言文本,这两种语料为海量语料库的对齐加工训练,奠定了基础。
二、机器翻译的语料库加工标准建立
句法部分是规定使用统一的语法和句法结构。李长栓担心汉语中的“读书学习”,机器会翻译为“study study”。我们可以在对原文加工时进行切分处理,变成“读书与学习”,机器就会轻松翻译为“reading and learning”。类似的“美国会批准这个条约”,根据上下文,可以改造为“美国国会(将/可能)会批准这个条约”或 “美国会批准了这个条约”。再如对“这次故事幸亏实验人员做了充分的应急准备”这类的主题句改为机器可以识别和翻译的SVO主谓句:“幸亏实验人员做了充分的应急准备,才避免了这次事故的发生”。
如零型回指语或代词回指语的使用,规定采用词汇重复性回指,尽量避免人工阅读也有困难的零回指或代词回指。如“养殖鱼类的脂肪肝病症状就在全世界各水产养殖大国的几乎所有主养鱼类中出现,并对水产养殖业和市场消费者造成相当大的负面影响”加工为“养殖鱼类的脂肪肝病症状就在全世界各水产养殖大国的几乎所有主养鱼类中出现,这种脂肪肝病对水产养殖业和市场消费者造成相当大的负面影响”。
再如汉语流水句,即缺乏显性连词的一组小句的加工处理。如“这种设备操作简单,价格低廉,需求量这几年一直很大,使用者普及国内外”,改为“由于这种设备操作简单,价格低廉,因此需求量这几年一直很大,使用者普及国内外”。比较英语句子:Theinstrument has enjoyed a growing number of users in recent years both at homeand broad as it is cheap and easily used,显然加工后的句子与英语句子结构相似,保证翻译准确率的提高。再如对左伸展结构(即前置修饰语过多句子)的改写,把“确立转基因水稻中GUS蛋白质的免疫学检测方法”改为“针对转基因水稻中GUS蛋白质,确立免疫学检测方法”,这样可以更接近英语的表达:to establish animmunological detection method ofGUS protein in transgenic rice。对句子的改造,也包括对英语文本中的复杂句和被动句的处理,使其更贴近汉语的标准表达。
三、机器翻译对语料的对齐加工
笔者曾经让学生做机器翻译实验,选择的是汉语医学期刊和物理期刊上的论文摘要(有中文和对应的英语摘要),使用的是我们学校引进的Google Translate。这个还是通用性神经机器翻译,不是专门的医学机器翻译或材料机器语料库。但用我们自己建立的标准,对汉语摘要进行词汇和句法加工规范后,然后让Google Translate翻译,出来的英语译文准确率比没有经过处理加工的译文有了很大的提高。然后把译文经过人工调整,再翻译回去,数次反复后,汉语摘要的机器翻译基本接近原来的英语摘要。
四、翻译专业硕士或博士的新任务
翻译专业硕士毕业后,主要去向就是语言服务工作者或留校担任翻译专业教师。随着科技、经济和文化的发展,专业信息以海量方式增加,加快并且大量进行专业期刊和著作的翻译是必然趋势。机器翻译的发展使得专业出版社(石油、医学、农业、艺术等)的结构和职能也将发生了巨大的变化:从过去的来料翻译作品编辑到自己生产翻译文本,即引进机器翻译后他们不需要找专业翻译进行人工翻译了。但是,从目前机器翻译的发展程度看,再专业也还达不到100%的翻译准确率,解决人工的校对和修改这最后一公里的问题是不可避免的,但这种编辑不是文字翻译,也不是仅懂翻译技能的编辑,而是必须有专业知识(如他们根据浏览源语文献标题和摘要知道翻译的需要和价值,在编辑翻译文本时根据专业知识能判读翻译的错误准确以便核对原文)和专业翻译能力的编辑。这就是语言服务的一种工作。
我们过去的翻译教师来源有三种情况,1)翻译理论研究者,2)文学和文献翻译实践者,3)学术翻译博士毕业留校者。无论哪一类都不符合蓬勃发展的翻译专业硕士乃至今后翻译专业博士的要求。调查发现,过去20年里80%的翻译博士论文的主题是翻译理论研究、翻译史研究和文学翻译研究等(穆雷、邹兵,2014),与专业和行业的翻译研究和实践没有任何关系,因此很难胜任机器翻译时代的翻译专业教学。按照本文第一节描述的翻译硕士和博士专业翻译课程培养方案和课程设置,这些毕业生无疑提供了新一代可以胜任机器翻译时代的翻译教师。
在人工智能高度发展的时代,我们千万不能低估机器翻译替代人工翻译的可能性。我坚信,专业机器翻译取代大部分人工翻译(除文学作品外)是最近几年的事情。翻译界必须为这个时代的到来做好准备,尤其是翻译硕士专业必须在教学定位和课程设置等方面进行专业结构的调整。
参考文献
穆雷、邹兵:《中国翻译学研究现状的文献计量分析(1992-2013)—对两岸四地近700篇博士论文的考察》,载于《中国翻译》2014年第2期。
作者是复旦大学教授、博导,研究方向:英汉对比语言学;应用语言学
机器可以取代人工翻译吗?
李长栓
人工智能的发展非常迅速,翻译的准确性越来越高,以至于有人担心译员是否会失业,甚至有的家长担心孩子学习外语专业,将来找不到工作。本人的判断是:机器翻译可以极大方便人们获得国外的信息,提高专业译员的工作效率,但要想进行深度思想交流,还是必须依赖人工翻译,最好是直接学习外语。
对于专业译员来说,可以利用机器翻译来做初稿,然后编辑加工。如果机器翻译准确率平均达到50%,就可以提高50%的效率。不准确部分虽然没有逻辑,但一些用词有可能是正确的,可以通过人工修改加以完善;起码可以省却一些打字时间。此外,机器翻译软件还有助于不同译者统一用词,对于需要分工合作的任务来说,可以节省统稿时间。
机器翻译难以克服的问题机器翻译尽管发展迅猛,但不同语言之间的翻译,准确性有很大不同。对于结构比较相似、单词意思可以完整对应的语言,或者有一定转换规律的语言,比如欧洲语言之间,机器翻译已经达到相当高的水平,专业译员进行少量编辑,就可以做正式翻译文本使用。但对于概念对应不整齐、结构差异较大的语言,比如汉语和英语,机器翻译需要改进的空间还很大。
举个简单例子。mission一词,基本意思是“交给一个人或一群人的一项重要任务,通常需要旅行到国外完成”(牛津英语词典)。在这个意思基础上,引申出“使命”“任务”“特派任务”“出差”“使团”“代表团”“特派团”“传教团”“访问团”等具体意思。如果把mission翻译为法语,译者(包括机器翻译)不需要任何思考,因为法语中也有这个词,拼写相同,只是读法不同,每个义项也相同。
也就是说,在具体语境下,mission表示什么意思,译者并不需要关心,让译文读者去判断即可。但如果要翻译为汉语,译者就必须根据上下文判断翻译为“使命”还是“使团”等。这个判断并非一目了然。如果交给机器翻译,机器通常会根据统计得出的概率,选择最常见的那个意思,而这往往会出错。
英语的句子结构可能十分复杂,从句套从句,一句话好几行。一些介绍机器翻译的文献中称,政府文件、法律文献等比较正规的语言,机器翻译相对准确性较高。这可能是针对欧洲语言来说的。因为欧洲语言之间的结构比较相似,翻译不需要太多结构调整。但汉语结构简单,缺乏类似英语的从句结构,把英语翻译为汉语,需要译者反复思考,化整为零,把复杂结构变为简单结构,才能有效传达原文的意思。机器缺乏逻辑分析能力,很难把复杂的结构,转化为有意义的简单结构。
比如,这是机器翻译出来的一句话,看大家能否读懂:“政府有六项强制性质疑,当被告被控犯有可判处一年以上监禁的罪行时,被告或被告共同提出10项强制性质疑。”这句话来自美国的《刑事诉讼规则》,讲的是如何挑选陪审团成员,准确的意思是:“当被告人被控犯有可判处一年以上监禁的罪行时,公诉人可以不说明理由排除六名(候选陪审员),被告人(包括多名)总共可以不说明理由排除10名(候选陪审员)”。这还是英语中相对简单的复杂句。遇到真正的复杂句,机器更是弄不清各部分之间的关系。
顺便指出,机器翻译中的“被告或被告”,来自英文defendant ordefendants。因为汉语无单复数之分,所以机器都翻译为“被告”。人工译员意识到此处的单复数有区别意思的作用,所以,变通处理为“被告人(包括多名)”。至于机器翻译用“被告”,人工翻译改为“被告人”,那是因为在中国的法律中,“被告人”用于刑事案件,相对于“公诉人”;“被告”用于民事案件,相对于“原告”。这些微小差别,更是不能指望机器分辨出来。
汉译英时,中文的句式虽然简单,但语言表达习惯独具特色,特别是政府文件,即使中文读者,也很难吃透文字之外的含义。比如:“学生的第一任务就是读书学习。高校必须围绕学生刻苦读书来办教育,要引导学生读“国情”书、“基层”书、“群众”书,读优秀传统文化经典、马列经典、中外传世经典和专业经典。”其中的“‘基层’”书、‘群众’书”,如果由人来翻译,会先调查一下两个说法背后的含义,然后换一种说法把意思表达出来。机器翻译则只会翻译文字,比如,某翻译软件就将“‘基层’”书、‘群众’书”翻译为“‘basic’books, ‘mass’books”,恐怕英文读者更难以看懂。
另外,人工翻译会注意到“读书学习”是一个概念,可以笼统翻译为study。但机器看到“读书”,就会翻译为study,看到“学习”,也会翻译为study。“读书学习”就会翻译为“study study”。在人看来,这是十分可笑的。
译员每天翻译的文件,有很多是匆忙中炮制出来的,没有经过专门编辑,会出现不严谨的表达。人类译者遇到质量低劣的文件,会通过调查研究或询问作者,弄清原文的意思,然后在译文中予以改善。但机器翻译只会忠实地翻译。比如:“检察机关的监督只限于对劳动教养场所刮泥和教育改造工作的监督,而对至关重要的审查批准没有监督权。”其中的“刮泥”译者难以理解。劳动教养场所为什么要“刮泥”?哪里来的“泥”?有那么多泥可以刮吗?这样的工作不符合常识。
有的人喜欢用成语,但不一定恰当。译者要根据上下文,判断作者到底在说什么,不一定严格按照作者的说法来翻译。比如,前两年中国政府曾经出台一份文件,要求打掉大院的围墙,疏通毛细血管,改善城市交通。记者采访新加坡城市规划之父刘太格,提了这样的问题:“《意见》出台后,大家热议的焦点在是否该拆掉大院和封闭小区的院墙。而中国小区的发展史,也是从开放式小区,由基层组织如派出所引导建立封闭式小区,而现在又因为交通拥堵,希望开放小区释放道路的“毛细血管”,政策的“朝令夕改”,以及这条疏缓交通的新办法,你认为合理吗?”
其中的“朝令夕改”,是指政策变化很快。但从前面的铺垫来看,几十年间政策实际才变了一次,算不上“朝令夕改”。编辑恐怕也意识到了这一点,所以加了引号。如果要把“朝令夕改”翻译为英文,就不能按照成语的本义来翻译,而是变通地译为“变化”。如果是机器,恐怕就不会想这么多。实际上,本人试了一下某网络翻译引擎,它甚至不能理解这个成语,因为它把“朝令夕改”翻译为“changing the future”(改变未来)。
以上的例子说明,机器翻译还有很多盲点。这些盲点恐怕不是一时半会儿可以克服的。对于广大用户来说,如果要想利用机器翻译进行交流,必须使用结构最简单、语法最完整、用词最基础、对任何人都明白无误的语言。要想通过机器翻译,实现自然语言的处理,恐怕还有很长的路要走;也许永远没有实现的一天。
作者是北京外国语大学高级翻译学院教授
主编:王继辉、王立非
责任编辑:蒙永业