「预教练」获EMNLP最佳论文,一举措华人,哈工大刘挺传授10篇论文被接纳

即日,自然言语处理顶会 EMNLP 2019 中国香港落下帷幕。本次大会中,中国被接纳的论文数目所有国家和地区中位居第二,哈尔滨工业大学刘挺传授有 10 篇论文被接纳。合幕式上,大会发表了最佳论文奖等众个奖项。来自约翰·霍普金斯大学的研讨团队摘得最佳论文奖,其一举措华人学者。

本次大会吸引了国表里浩繁自然言语处理范畴的专家学者到场,参会人数抵达了 1920 众人。大会共举办了 18 场 Workshop、众个 Tutorial 和众场中心演讲,涵盖自然言语处理、社会盘算学、盘算机社会科学、AI 系统和深度进修等话题。

论文投稿全体接纳状况来看,本届大会共收到有用投稿 2876 篇,接纳 683 篇,接纳率为 23.7%。

此中,被接纳的长论文有 465 篇,包罗 164 篇口头报告和 301 篇 Poster 论文;短论文共有 218 篇,包罗 48 篇口头报告和 170 篇 Poster 论文。

论文投稿得分状况来看,得分 3.67 以上才干包管有很大的概率被接纳。

投稿论文得疏分布以及接纳和被拒的状况。

论文投稿国家/地区来看,中美两国的投稿量远庞大于其他国家,此中中国提交了近 1000 篇,美国也近 900 篇。虽然中国的投稿量众于美国,但美国仍然是接纳论文最众的国家。下图是论文投稿量排名前五的国家:

投稿量前五名区分为:中国、美国、英国、日本和德国。

另外,中文字幕AV还参考了学术头条关于本届EMNLP大会的报道,它们从投稿范畴、入选论文所属机构等众方面临本届大会举行了剖析。以下是相关这两方面的精细剖析:

论文投稿范畴来看,投稿量排名前三的范畴依次是:用于自然言语处理(NLP)的板滞进修、摘要和生成(Summarization and Generation)和板滞翻译与众语化(Machine Translation and Multilinguality)。这三个范畴的接纳论文都超越了 50 篇。

本届大会论文投稿范畴分布状况(图源:学术头条)。

据学术头条统计,从入选论文所属机构来看,海外学界和工业界中,卡内基梅隆大学、艾伦人工智能研讨所、爱丁堡大学、加利福尼亚大学、华盛顿大学等机构的论文入选数位居前线;谷歌、Facebook、微软、IBM 等业界巨头仍然占领霸主位置;国内高校中,北大、清华、哈工大、北航、浙大、中山大学、北理工的论文录取数目位居前线,阿里巴巴、腾讯等业界巨擘外现不俗。

本届大会所有接纳的论文中,中文字幕AV经拾掇发明,哈尔滨工业大学传授、哈工大人工智能研讨院副院长刘挺传授有 10 篇论文被接纳。

以下是刘挺传授被接纳的 10 篇论文及论文链接:

中文字幕AV依据所有的投稿论文题目制制了词云,从中可以看出,生成、神经收集等是本次大会的要点体恤范畴。

各大奖项出炉

本次 EMNLP-IJCNLP 大会发表了最佳论文奖、最佳资源奖、最佳 Demo 奖等众个奖项,以下是精细的获奖新闻。

EMNLP-IJCNLP 2019 最佳论文奖

本年的最佳论文奖颁给了约翰·霍普金斯大学的研讨团队,他们的论文题目是《Specializing Word Embeddings(for Parsing)by Information Bottleneck》,其一作 Xiang Lisa Li 是约翰·霍普金斯大学的大四学生,是一位华人学者,其导师是出名 NLP 学者 Jason Eisner。

论文链接:http://cs.jhu.edu/~jason/papers/li+eisner.emnlp19.pdf

摘要:预教练词向量,如 ELMo 和 BERT 包罗了丰厚的句法和语义新闻,使这些模子可以种种义务上抵达 SOTA 外现。本文中,研讨者则提出了一个十分疾速的变分新闻瓶颈方法,可以用非线性的方法压缩这些嵌入,仅保管可以帮帮句法解析器的新闻。研讨者将每个词嵌入压缩成一个离散标签,或者一个延续向量。离散的方式下,压缩的离散标签可以构成一种交换标签集。通过实行可以阐明,这种标签集可以捕捉阵势部古板 POS 标签标注的新闻,而且这种标签序列语法解析的进程中更为准确(标签质料相似的状况下)。而延续方式中,研讨者通过实行阐明,适外埠压缩词嵌入可以 8 种言语中发生更准确的语法解析器。这比简单的降维方法要好。

EMNLP-IJCNLP 2019 最佳论文第二名

本年最佳论文奖的第二名颁给了斯坦福大学的研讨团队,他们的论文题目是《Designing and Interpreting Probes with Control Tasks》。作家为 John Hewitt、Percy Liang。

论文链接:https://www.aclweb.org/anthology/D19-1275.pdf

摘要:教练有素的监视模子可以依据外达方式(如 ELMo)预测属性(如词性),探测器一系列言语义务上均具有很高的准确性。但这是否意味着这些外达方式对言语构造举行了编码,或者只是探测器曾经进修了言语义务?本文中,研讨者提出了掌握义务,将词的类型与随机输出联络起来,以辅帮言语义务。按照设定,这些义务只可由探测器来进修。于是挑选一个适宜的探测器(能反应该外达方式的探测器)很主要,以完成较高的言语义务准确性和较低的掌握义务准确性。探测器的挑选性将言语义务的准确性与本身记忆词类型的才能相关联。研讨者提出了用于英语词汇标注和依赖边沿预测的掌握义务,而且展现了基于外达方式上的探测器是不可挑选的。

同时他们还发明,一般用于掌握探测器繁杂性的滤除对进步 MLP 的挑选性是无效的,可是其他方式的正则化是有用的。着末,他们发明,尽管 ELMo 的第一层探测器比第二层探测器的词性标注精度高少许,可是第二层上的探测器更具挑选性。引出了以下题目:究颈ツ一层可以更好地代外词性。

EMNLP-IJCNLP 2019 最佳资源奖

本年的最佳资源奖颁给了 Facebook、美国索邦大学和约翰·霍普金斯大学的研讨团队,他们的论文题目是《The FLORES Evaluation Datasets for Low-Resource Machine Translation: Nepali–English and Sinhala–English》。作家为 Francisco Guzmán、Peng-Jen Chen、Myle Ott、Juan Pino、Guillaume Lample 等

论文链接:https://arxiv.org/pdf/1902.01382.pdf

项目地址:https://github.com/facebookresearch/flores

摘要:板滞翻译范畴,许众言语对的可用对齐语料都十分希罕。除了技能上要面临有限制的监视进修挑衅外,评估这些低资源言语对上教练的方法也保管艰难,因为可用的基准十分少。本文中,研讨者先容了一个用于尼泊尔语-英语、僧伽罗语-英语的 FLORES 评估数据集,该数据集基于维基百科上翻译过的句子。与英语比较,这些言语样式学和句法学上都保管很大差别。关于这些言语,很少有范畴外的平行语料可用,但它们的免费可用单语数据十分丰厚。研讨者描画了搜罗和交叉验证翻译质料的进程,并运用几种进修方法报告基线功用,包罗完备监视、弱监视、半监视和完备无监视。实行外明,目今最佳的方法这些基线上外现都十分差,这给研讨低资源言语板滞翻译的社区带来了很大挑衅。

EMNLP-IJCNLP 2019 最佳 Demo 奖

本年的最佳 Demo 奖颁给了加州大学伯克利分校、艾伦人工智能研讨所、加利福尼亚大学尔湾分校的研讨团队,他们的论文题目是《AllenNLP Interpret: A Framework for Explaining Predictions of NLP Models》。作家为 Eric Wallace、Jens Tuyls、Junlin Wang、Sanjay Subramanian、Matt Gardner、Sameer Singh 等人

论文链接:https://arxiv.org/abs/1909.09251

项目地址:https://allennlp.org/interpret

摘要:神经 NLP 模子正变得越来越准确,但它们远非完美,而且是不透后的。这些模子以违反直觉的方法解体,使得用户摸不着思维。模子标明方法通过为特定的模子预测供应标明来减轻它们的不透后性。然而,现有的标明代码库使得这些方法新模子和新义务中难以运用,这妨碍了从业者采用这些方法,同时也给可标明性研讨带来担负。为此,来自艾伦人工智能研讨所等机构的研讨者开辟了一个灵敏的 NLP 模子标明框架——AllenNLP Interpret。它可认为所有的 AlenNLP 模子和义务供应标明原语(如输入梯度)、一系列内置标明方法一级一个前端可视化组件库。

参考链接:https://mp.weixin.qq.com/s/IKREAyWcTH-jp8plTcAR5A

初学哈尔滨工业大学刘挺自然言语处理EMNLP 2019
1
相关数据
刘挺人物

哈工大人工智能研讨院副院长,国内NLP偏向领军人物。

板滞进修技能

板滞进修是人工智能的一个分支,是一门众范畴交叉学科,涉及概率论、统计学、迫近论、凸剖析、盘算繁杂性表面等众门学科。板滞进修表面重假如计划和剖析少许让盘算机可以主动“进修”的算法。因为进修算法中涉及了大宗的统计学表面,板滞进修与推测统计学联络尤为亲密,也被称为统计进修表面。算法计划方面,板滞进修表面体恤可以完成的,卓有用果的进修算法。

人工智能技能

学术研讨范畴,人工智能一般指可以感知四周状况并接纳举动以完成最优的可以结果的智能体(intelligent agent)

自然言语处理技能

自然言语处理(英语:natural language processing,缩写作 NLP)是人工智能和言语学范畴的分支学科。此范畴议论如那处理及运用自然言语;自然言语认知则是指让电脑“懂”人类的言语。自然言语生成系统把盘算机数据转化为自然言语。自然言语了解系统把自然言语转化为盘算机顺序更易于处理的方式。

引荐作品
暂无评论
暂无评论~