但并非通盘话语数据皆公开、低本钱或是遍及可及-kaiyun(欧洲杯)app-kaiyun欧洲杯app(中国)官方网站-登录入口
发布日期:2024-07-17 04:35    点击次数:50

但并非通盘话语数据皆公开、低本钱或是遍及可及-kaiyun(欧洲杯)app-kaiyun欧洲杯app(中国)官方网站-登录入口

  中新网北京6月8日电 (记者孙自法)国外驰名学术期刊《当然》最新一篇东说念主工智能(AI)谈判论文称,谈判东说念主员开拓出一个Meta东说念主工智能模子的底层本领,该模子能翻译200种不同话语,增多了能用机器翻译的话语数目。

  该论文先容,神经机器翻译模子诓骗东说念主工神经采集翻译多样话语,这些模子每每需要大皆可在线赢得的数据加以锤真金不怕火,但并非通盘话语数据皆公开、低本钱或是遍及可及,此类话语被称为“低资源话语”。而增多模子在翻译话语数目上的话语输出可能会影响模子的翻译质地。

  为此,本篇论文作家、“不落下任何话语”(No Language Left Behind,NLLB)团队开拓出一种跨话语本领,能让神经机器翻译模子学习怎么诓骗翻译高资源话语的预存才智来翻译低资源话语。当作效果,NLLB团队开拓了一个在线多话语翻译器具,名为NLLB-200,该器具能容纳200种话语,其低资源话语数目是高资源话语的三倍,翻译发达比已有系统高了44%。

  由于NLLB团队在好多低资源话语上只可赢得1000-2000例样本,为扩大NLLB-200的锤真金不怕火数据量,他们用一个话语识别系统发现了这些特定话语的更多实例。该团队还从互联网归档中挖掘双语文本数据,匡助提高了NLLB-200的翻译质地。

  《当然》同时发表同业群众“新闻与不雅点”著作指出,NLLB团队研发的这个器具,不错匡助很少被翻译的那些话语的使用者,让他们能使用互联网和其他本领。

  此外,NLLB团队还强调教化是一个相配热切的应用,因为这个模子不错匡助低资源话语使用者赢得更多典籍和谈判著作。不外,该团队也指示说,误译的情况仍有可能出现。(完)