华人夺魁,「魔球」表面获奖:KDD 2019所有奖项出炉

国际数据开掘顶会 KDD 2019 方才放出了最佳论文等奖项。最受注目标最佳论文奖由康奈尔大学 Kun Dong 等人,以及比利时鲁汶大学的 Tom Decroos 等人取得。除研讨除外,大会举办的三大竞赛(KDD CUP)均由中国公司替代。

第 25 届 ACM SIGKDD 常识发明和数据开掘集会(KDD)已于本年 8 月 4 日美国阿拉斯加州安克雷奇揭幕。本年的大会奖项分为研讨偏向和运用数据科学偏向。本日发布的最佳论文中,康奈尔大学的《Network Density of States》取得了研讨类最佳论文奖;而运用数据科学偏向的最佳论文为《Actions Speak Louder than Goals: Valuing Player Actions in Soccer》,这是一篇相关足球技能剖析方面的研讨,来自比利时天主教鲁汶大学以及体育剖析公司 SciSports。

为了晋升论文接纳的质料,KDD 2019 首次采用了双盲审查轨制,本次大会也对研讨的可复现性提出了新的请求,夸张其为「论文审核进程中的一个主要因素」,只要包罗两页可复现性实质附录的作品才有可以被评为 KDD 最佳论文。

KDD 对论文接纳十分厉厉,每年的接纳率均未超越 20%。本届大会运用数据科学偏向共收到大约 700 篇论文,此中 45 篇 oral 论文,约 100 篇被接纳为 poster 论文;研讨偏向共收到约 1200 篇投稿,此中约 110 篇 oral 论文,60 篇 poster 论文,接纳率仅为 14%。

研讨偏向最佳论文

  • 论文:Network Density of States

  • 作家:Kun Dong、Austin R. Benson、David Bindel(康奈尔大学)

  • 链接:https://arxiv.org/pdf/1905.09758.pdf

谱剖析将图构造与相关矩阵的特征值和特征向量联络一同。许众谱图表面直接源于谱几何,即通过相关微分算子的谱研讨可微流形。但从谱几何到谱图表面的转换主要汇合只涉及少数非常特征值及其相关特征值的结果上。与谱几何差别的是,通过特征值的总体分布(谱密度)来研讨图很洪流平上范围于简单的随机图模子。实活着界图谱的内部很洪流平上还未被探究,以是难以盘算和标明。

本文中,研讨者深化探究了实活着界图谱谱密度的中心。他们借用了凝集态物理学中开辟的东西,并添加了新的顺应性来处理常睹图形的谱特征。他们盘算了单个盘算节点上超越 10 亿个边的图的谱密度,标明所取得的方法十分高效。除了供应视觉上引人注目标图形指纹除外,研讨者还展现了谱密度的估量怎样简化许众常睹的中心器量的盘算,并运用谱密度估量关于图构造的有原理新闻,这些新闻不行仅从极值特征对推测出来。

谱表面是一种图表面、几何学和物理学中十分有用的剖析东西。每个设修都遵照同样的方法:

  • 明晰一个兴味对象,比如一个图或者一个点集(manifolds);

  • 将对象和一个矩阵或运算器(operator)联络起来,一般是一个线性动态系统的生成器或对象上的函数平方的 Hessian 矩阵;

将矩阵或运算符的谱属性连接到原始对象的构造属性。

每种状况下,完备的谱剖析足以恢复原始对象;幽默的结果将构造与部分光谱新闻联络起来。缺憾的是,因为缺乏可扩展算法,收集谱密度的剖析受到限制。本文中,作家展现了用于研讨凝集态物理中形态密度的方法怎样用于研讨收集中的谱密度。

研讨偏向亚军论文

  • 论文:Optimizing Impression Counts for Outdoor Advertising

  • 作家:Yipeng Zhang、Yuchen Li、Zhifeng Bao、Songsong Mo、Ping Zhang(皇家墨尔本理工大学、新加坡办理大学、武汉大学、华为)

  • 链接:http://delivery.acm.org/10.1145/3340000/3330829/p1205-zhang.pdf

自 2017 年以后,户外广告墟市范围每年增加 3%-4%,估量到 2021 年将抵达 330 亿美元。此中 74% 的增加来自广告牌。广告牌的主要受众是沿途的行人。超越 80% 的司机开车时会当心到广告牌。因为定位配备的普及,现曾经积聚了大宗的行人出行轨迹。那么,怎样应用这些数据晋升广告影响就成了研讨者体恤的题目。

实行场景中,广告牌的数目和预算是固定的,于是研讨职员提出通过进步户外广告的印象计数(ICOA)来晋升广告效果,以此进步广告主的投资回报率。

给定一个广告牌数据库 U,此中每个广告牌都有一个位置和一个非平均资本,一个轨迹数据库 T 和一个预算 B,它的目标是找到一组预算范围内影响最大的广告牌。

要办理这一题目,研讨职员职员必需抑制两大挑衅:

  1. 同一广告牌呈现众少次能抵达最佳效果(既给行人留下深化印象又不糜费预算);

  2. 第二个挑衅是逻辑函数的实质。基于 logistic 函数的影响模子好坏子模块的,这意味着简单的贪婪方法不行办理 ICOA 题目。更倒运的是,差别广告牌的资本不同一,使得优化题目更加繁杂。研讨者外明,恣意常数因子下,迫近 ICOA 是 NP-hard 题目。

关于第一个题目,此前有研讨外明,必定范围内,广告牌呈现的次数越众,给道人留下的印象越深化,但高出这一范围之后效果会越来越差。

关于第二个题目,研讨者提出了一种基于切线盘算子模函数的算法来估量影响的上界。他们引入了一个带永秩-termination 条件的分支定界框架,完成 θ/2 × (1 1/e) 近似比。然而,当|U|很大时,这个框架十分耗时。于是,研讨者应用渐进剪枝上限估量方法对其举行进一步优化,完成 θ/2 × (1 1/e ) 近似比例并分明低沉了运转时间。他们实的广告牌和轨迹数据集上举行了实行,结果外明,该方法的有用性比基线跨过 95%。另外,优化方法比原框架速两个数目级尊驾。

运用偏向最佳论文

取得 KDD 2019 运用数据开掘偏向最佳论文的研讨来自于比利时天主教鲁汶大学和体育剖析公司 SciSports,研讨相关运用械澜法评判足球运发动的才能:球员场上的举措比进球更有代价,这是一项颇具《Money Ball》立场的义务。

  • 题目:Actions Speak Louder than Goals: Valuing Player Actions in Soccer

  • 作家:Tom Decroos、Lotte Bransen、Jan Van Haaren、Jesse Davi

  • 链接:https://arxiv.org/pdf/1802.07127.pdf

评估足球运发动竞赛中私人举动所变成的影响是评估他们的主要目标。然而,大大都古板目标办理此类义务时效果都不尽如人意,因为它们只体恤整场竞赛中仅有的几次特别举措,比如射门和进球——而无视了举动的配景。

研讨职员提出的方法包罗:

  • 一种用于描画球场上各个球员举措的新言语;

  • 基于它比照赛结果的影响来评估任何类型球员举措的框架,同时思索了举措爆发的配景。

2017 年 12 月 23 日西甲联赛第 17 轮巴塞罗那 3:0 皇家马德里的竞赛中,比达尔着末一个进球时巴萨几名挫折队员的得分。

2017/18 赛季英超联赛挫折球员的排名与身价比照(退场时间起码为 900 分钟)。上外为进球+帮攻数的排名,下外为运用械澜法 VAEP 的排名。球员身价为 2019 年 2 月德国转会墟市的估价。

通过评估足球运发动的举措「代价」,我们就可以量化他们对球队的总体挫折和防守奉献。研讨人院瞎示了运用械澜法怎样找到古板球员评估方法疏忽的新闻,相关用例已 2016/17 和 2017/18 赛季欧洲顶级联赛球探察看球员以及竞赛立场描画义务中运用。

运用偏向亚军论文

  • 论文:Developing Measures of Cognitive Impairment in the Real World from Consumer-Grade Multimodal Sensor Streams

  • 作家:Richard Chen、Filip Jankovic、Nikki Marinsek(苹果、Evidation Health、礼来公司、)

  • 链接:http://alessiosignorini.com/articles/developing-measures-cognitive-impairment-multimodal-sensor-streams/paper.pdf

据估量,举世约有 4680 万人患有痴呆症。痴呆症的早期诊断是一项临床挑衅,而且十分耗时。早期症状一般并不分明,而且恒久潜伏,很容易被无视为「平常老化」。

可衣着消费配备、挪动盘算平台(智妙手机、智妙手外、平板电脑)和众种传感器方式的普及和进步,使得痴呆症高危人群或患者往常运动的继续监测成为可以。这些丰厚的纵深新闻可以用来开掘认知妨碍的心思和方法特征,从而为及时、经济、有用地检测轻度认知功用妨碍(介于平常衰老和痴呆之间的一种中心形态)供应了新的途径。

本文中,研讨者提出了一个平台,可以应用消费级智能配备来长途监控认知妨碍相关症状,而且过错用户生存变成分明影响。通过礼来公司一项为期 12 周的探爽速数字评估研讨,研讨者监测了 31 名认知妨碍患者和 82 名无认知妨碍患者自生存条件下的状况,并应用该平台搜罗了 16TB 的数据。

研讨者描画了怎样谨慎地运用数据同一(data unification)、时间对齐(time alignment)和缺失值处理技能(imputation technique)来处理实状况中苟菪的数据缺失率,并展现了这些数据的适用代价。

时间查验奖

本年的时间查验奖(test of time award)发表给了卡耐基梅隆大学(CMU)和 Nielsen BuzzMetrics 2007 年的一项研讨。

  • 论文:Cost-effective outbreak detection in networks

  • 作家:Jure Leskovec、Andreas Krause、Carlos Guestrin,Christos Faloutsos、Jeanne VanBriesen、Natalie Glance

  • 链接:https://www.cs.cmu.edu/~jure/pubs/detect-kdd07.pdf

该研讨中,作家提出了一种可以最疾速检测扩散新闻的械澜法,并标清楚许众实行的爆发检测目标(比如检测可以性、受影响人群)外现出了「子模块性」的特征。应用子模块开辟出的新算法可以扩展到更大的题目,完成接近最佳的配备,同时比简单的贪默算法速 700 倍。另外,该方法易于扩展,并可以俭省数个数目级的存储。

KDD CUP

本年的 KDD CUP 竞赛共有超越 2800 支注册步队参赛。这些步队来自 39 个国家和地区,包罗了 230 个学术和研讨机构,参赛职员 5000 人以上,总共提交了超越 17000 次结果。

本年的 KDD CUP 分为三个赛道,区分是:

  • 常规板滞进修竞赛(Regular Machine Learning Competition)

  • 主动板滞进修竞赛(Automated Machine Learning Competition)

  • 「Research for Humanity」深化进修竞赛(「Research for Humanity」Reinforcement Learning Competition Track)

常规板滞进修竞赛

常规板滞进修竞赛由百度赞帮,分为两个义务:

  • 义务一:最适合的交通方法引荐

  • 义务二:绽放研讨/运用挑衅

义务一中,冠军团队成员为:Shiwen Cui、Changhua Meng、Can Yi、Weiqiang Wang、Xing Zhao、Long Guo,来自蚂蚁金服。亚军团队成员包罗:Hengda Bao、Jie Zhang、Wenchao Xu、Qiang Wang、Jiayuan Xie、He Wang、Ceyuan Liang,来自上海微盟、趋势科技、滴滴、北京邮电大学、华南理工大学、京东等机构。

义务二中,取得冠军团队里有:Keiichi Ochiai、Tsukasa Demizu、Shin Ishiguro、Shohei Maruyama、Akihiro Kawana, 来自日本 NTT DOCOMO 公司。亚军团队成员:Yang Liu、Cheng Lyu、Zhiyuan Liu,来自东南大学。

百度同时设立了 PaddlePaddle 特别奖,获胶线为:Xianfeng Liang、Likang Wu、Joya Chen、Yang Liu、Runlong Yu、Min Hou、Han Wu、Yuyang Ye、Qi Liu、Enhong Chen,来自中国科学技能大学。

主动板滞进修竞赛

主动板滞进修竞赛由第四范式赞帮,取得冠军的是:Zhipeng Luo、Jianqiang Huang、Mingjian Chen、Bohang Zheng,他们来自 DeepBlueAI 和北京大学。亚军团队则是:Chengxi Xue、Shu Yao、Zeyi Wen、Bingsheng He,来改正加坡国立大学。

「Research for Humanity」深化进修竞赛

而「Research for Humanity」深化进修竞赛由 IBM Africa 和 Hexagon-ML.com 赞帮,取得冠军的是来自中国台湾国立成功大学的 Zi-Kuan Huang、Jing-Jing Xiao、Hung-Yu Kao,取得亚军的是 Lixin Zou、Long Xia、Zhuo Zhang、Dawei Yin,来自清华大学、京东和北京航空航天大学。

创业研讨奖

KDD 于 2017 年设立了创业研讨奖,旨奖励创业公司科技范畴研讨的奉献。本年的奖项由创业研讨奖委员会众家公司中选出。

四家获奖公司中,两家来自英国,另两家则是国内创业公司,此中包罗清华大学 AI 研讨院的创业公司 RealAI(瑞莱伶俐)以及企业征信机构天眼查。

表面数据科学获奖论文KDD 2019
1
相关数据
剪枝技能

剪枝顾名思义,便是删去少许不主要的节点,来减小盘算或搜寻的繁杂度。剪枝许众算法中都有很好的运用,如:计划树,神经收集,搜寻算法,数据库的计划等。计划树和神经收集中,剪枝可以有用缓解过拟合题目并减小盘算繁杂度;搜寻算法中,可以减小搜寻范围,进步搜寻服从。

数据开掘技能

数据开掘(英语:data mining)是一个跨学科的盘算机科学分支 它是用人工智能、板滞进修、统计学和数据库的交叉方法相對較大型的数据汇合发明方式的盘算进程。 数据开掘进程的总体目标是从一个数据汇合提取新闻,并将其转换成可了解的构造,以进一步运用。

感谢分享,对菜鸟十分友好哈。