长沙翻译公司 长沙翻译公司 长沙翻译公司
123

语言大数据联盟在青岛正式成立

 2016年4月8日,语言大数据联盟在青岛“语言·大数据开放2016”大会上正式成立,青岛市副市长栾新等领导、全国百余所外语院校负责人、科研院所专家、互联网企业代表、大数据分析师等两百多位现场嘉宾及在线观看会议直播的近五千观众见证成立仪式。中国出版集团公司副总裁潘凯雄,中国对外翻译有限公司总经理、中国译协常务理事黄松,天津外国语大学校长、中国译协副会长修刚,北京第二外国语大学副校长、中国译协副会长邱鸣、四川外国语大学副校长、中国译协副会长董洪川,西安外国语大学副校长党争胜,青岛大学副校长汪黎明共同触屏启动,语言大数据联盟正式成立。

  语言大数据联盟由全国翻译专业学位研究生教育指导委员会、中国对外翻译有限公司及二十余所重点高校共同发起。联盟将联合全球高等院校、科研机构与企业,针对语言大数据的建设、共享与协同创新进行广泛交流与合作,并为全民提供智库支持,把联盟打造成语言大数据建设的领导者。

  在成立仪式上,中译语通科技(北京)有限公司(以下简称“中译语通”)CEO于洋向与会者们介绍了语言大数据开放计划。中译语通将向联盟成员单位开放亿万级语料库、机器翻译(MT)、计算机辅助翻译(CAT) 、翻译项目管理(TMS)、语言资产管理和语音识别等先进技术与平台资源,为高等院校、科研机构、企事业单位的语言服务教学、实践、科研、业务等提供支持,并深入开展合作。会中,数十所院校在会议现场表示希望加入语言大数据联盟。

  到4月9日,语言大数据联盟第一次理事会议召开,针对联盟成员的加入、管理及联盟内部各垂直专业领域实验室的建立进行了深入探讨。

  【关于语言大数据联盟】

  语言大数据联盟是一个全球性、多领域、多语言的基于大数据资源开放与共享平台的科研应用联盟,是为政府、企业、高校、研究机构等多方合作、资源共享构建的一个开放的平台,旨在通过开放的亿万级语料资源、技术资源、平台资源等为高等院校、科研机构、机关企事业单位的教学、实践、科研、业务拓展等提供支持。



  中国出版集团副总裁 潘凯雄

  中国出版集团的主业是出版,其下属的中国对外翻译公司主要是做跨语言翻译服务,1972年为了翻译联合国文件专门成立,随着时代的发展,前两年成立中译语通公司进行语言服务的科技化。通过“语言分享计划/语言大数据联盟”把智能化的语言服务工作做好。

  天外校长 修刚

  大数据是国家发展战略,关系到国家的未来发展。大数据的特点是“量大、种类多、更新快”。每一个数据都有各种各样的语言构成。面向一带一路的发展,不仅仅需要英语。比如和印度尼西亚谈判,高层用英语,再往下谈就需要懂当地语言的人。未来的联盟是开放的。在外语教学中,未来会更需要技术,尤其是大数据技术来辅助,语言大数据能做很多事情。希望语言大数据能加快国别研究。二外成立了中日韩的研究中心。面向未来的国别研究离不开大数据。在外语研究方面也需要大数据。语言大数据更会服务翻译的发展。

  中译语通CEO 于洋

  互联网、大数据、人工智能

  一个月之前的人机智能大战,当众人都觉得阿尔法狗能完胜机器的时候,这一次机器学习、大数据、人工智能技术完全战胜了人类。在今天,中译宇通一直开发的自然语言处理技术、大数据技术是否会战胜“野蛮人”。在阿尔法狗在运用了复杂的计算策略进行运算,达到了深度、速度和准确度。但是,“老司机还是老司机”,创造人工智能的还是人类,制定策略网络和价值网络的还是人类。从手工翻译到计算机辅助翻译,看起来是机器在进步,实际上是人的进步,工作方式的进步。

  在今天的大数据时代,每秒会产生22T的数据,在今天的时间节点,中译的译云已经拥有31亿句对,相当于600亿词。在2016年底,将会超过40亿句对。

  所以今天提出“跨语言大数据”,机器翻译放大了大数据的量级和价值。我们在使用百度搜索引擎时得到了中文的搜索结果主要是中文的,用Google搜索英文,得到了英文结果。对于机器来说,语言不是障碍。当我们用搜索引擎时,事实上,当我们搜索中文时,应该出现更多的语种的资料。在今天,我们需要在大数据基础上进行深度挖掘跨语言大数据之美。

  互联网给我们带了很多的冲击,最典型的是上到国家总理,下到平民百姓,无人不谈大数据、互联网思维,落脚点终究要回归到语言上。而在这个行业,诞生了很多平台。对于平台来说,用户、流量、交易是核心。没有用户、流量、交易的平台顶多称得上是网站。

  在我们遇到互联网泡沫的时候,资本一直在追逐互联网。移动互联网并没有消失掉,已经变成了我们今天生活、学习工作的一部分,互联网已经变成了我们工作的基础设施。在这样一个环境下我们应该考虑如何将语言学习、翻译教学与大数据、人工智能怎么样紧密结合起来。跨境电商给我们的行业带来了大量的需求,而这个需求更多的时候需要机器去完成。

  在阿里巴巴的网站上有超过2亿产品,4000亿字的翻译是巨大的翻译量,需要中国的翻译公司翻译几千年才能完成,所以这个需要机器才能完成。

  机器翻译是自然语言处理的一部分,处于顶端的位置,融合了很多技术。很多人在讨论机器翻译能否替代人,有些人说可能需要十年、几十年。机器翻译最早诞生于IBM,那个时候语料库的发展受到了硬件的限制,机器翻译受到了语料库的限制,所以机器翻译的效果是有局限的。Google发布了基于统计的机器翻译,2007年百度发布了百度翻译,再往后微软也发布了。现在,机器翻译得到了大规模的使用,机器永远不会替代人类,在过去的相当长一段时间内,语言服务公司、翻译公司做的笔译量是不断增加的,但是赶不上大数据发展的速度,机器翻译替代人类完成的翻译量是大家没有想到的,所以机器翻译是更好的帮助人类翻译的工具,让人类看到了不同的世界。

  30亿给我们的行业提供了一个支点,这个语料库本身就是一个庞大的数据,机器翻译作为支点进一步撬动各个领域的大数据,这是我们非常重要的一个主题。作为语言服务行业,机器翻译的进步是靠着存在的数据去发展,曾经有专家讲,机器翻译不了诗词,但是如果在我们的语料库中把所有唐诗的译本收收集起来,那么这个语料库比99%的人都翻译得好,只要未来语料库的质量足够好,机器翻译的质量就足够好。这样庞大的数据会在未来帮助我们做更好的翻译。

  对于语言服务而言,我们可以实现毫秒级的语言检索,系统具有实时发现的能力,使得新的数据能够不断被发现。

  在大数据中,有结构化数据和非结构化数据,非结构化数据占比超过了80%,如何深度挖掘非结构化的大数据和跨语言的大数据给我们带了巨大的挑战,我们需要为这些数据建构标准、秩序和可视化的呈现方式,这样才能预测未来。

  在十三五规划中,机器翻译时至今日,其技术发展成果、成熟度要远远超出人们的想象,会在各个行业都得到极大的应用。许多智能厂商已经进入到人工智能芯片的制造,一个小小的芯片能够与各种各样的设备甚至人体融合。机器翻译必然进入到芯片级别的发展,嵌入到所有的设备中去提供语言服务。

  试想早上起来,机器人可以帮我们遇到世界的新闻,国际头条,大数据可以帮助我们检索到我们最需要的新闻,并不需要很久的时间就可以实现,也许3-5年就可以实现,甚至更短。

  在人工智能时代,跨语言的大数据能够给我们带来无限的想象。中译宇通持续投入研发力量在跨语言大数据上,我们希望将我们的经验与所有的高校、企业和专家去共享,我们需要更多的智慧,给我们提供更多的知识储备,涉及到语义分析、数据分析的算法需要大家一起完成。我们构建一个开放、共赢的跨语言大数据生态社群,我们更希望把科研院所、企业联合起来一起做这个事情。我们希望实现从一个词到整个世界的共享。

  在所有的联盟成员当中,我们去开放平台、语料和技术。我们会发布新的计算机辅助翻译平台、语音识别平台,完全向高校开放,通过共享共建实现更为庞大的大数据。除了技术平台,我们会共享超过1亿句对的语料,每一年会开放更大规模的语料。对于外语类院校,针对学术研究的项目我们可以开放更多的数据,这是非常好的共享。每年还会开放不低于2亿字的翻译任务给高校,即语言实验室,形成自生的可循环的状态。毕业后优秀的学生可以留在实验室继续发展,为学院的的发展提供可持续的空间。

  我们会支持从个人到团队,从普通的到专业的,给与全力的支持。我希望在今年年底不少于20家的海外高校加入,并由一些高校建立专业委员会,比如政法大数据委员会、国别研究大数据委员会。未来数据可以共享,量级会更加庞大,这会给教学和科研带去更多的机遇。

  文字记录/韩林涛/北京语言大学高级翻译学院

——选自:译声长沙翻译公司

 

译声长沙翻译公司目前是国内专业的翻译机构之一,译声长沙翻译公司秉承“诚信 专业”的服务理念,为国内外客户提供一流翻译服务。了解更多信息:请直接致电:400-600-6870咨询。

 

发表评论:

热门城市:
长沙区县:

在线客服

QQ客服一
在线客服QQ10932726
QQ客服二
在线客服QQ10932726
QQ客服三
在线咨询