顶会抄顶会?SIGIR论文作家回应质疑,ACM主席已介入

被指摘抄袭的作家切身下场区分,却被批驳「漏洞百出」,顶会抄顶会的故事还没有最终定论。

上周,一位 Reddit 网友曝出,一篇 SIGIR 2019 的论文疑似抄袭,论文中的许众段落与 RecSys 2018 的一篇论文高度相似,只是语言略有差别,但并没有声明援用后者。被质疑抄袭的两位作家区分来自荷兰和瑞士的高校,此中一位照旧传授。这一事情 Reddit 上激起围观。原贴发酵数日之后,两位被指摘「抄袭」的作家毕竟现身回应。然而,他们的回应仿佛并不行让发帖者信服……

论文作家逐条批驳原贴质疑

原帖中,发帖者列出了五条可以标明 SIGIR 2019 论文抄袭 RecSys 2018 论文的证据:

  1. 两篇作品都矩阵剖析框架的根底上运用了序列到序列的对立进修模子;

  2. 生成器和识别器部分,两篇论文都将 GRU 和 CNN 区分举措生成器和识别器;

  3.  优化方法相同,即两个部分之间瓜代举行优化;

  4. 评估是相同的,即都是通过评估 MSE 的引荐功用和识别器的准确性来外明生成器已学会生成相关评论;

  5. 两篇论文运用的符号和公式看起来十分相似。

最新的回帖中,SIGIR 2019 论文作家针对这些「证据」逐条举行了批驳。

关于第 1 条证据,作家外示,终究上,这两篇论文都对一篇 WWW『18 论文《Co-Evolutionary Recommendation Model: Mutual Learning between Ratings and Reviews》举行了拓展(这篇的作家也是 RecSys 2018 论文的作家)。SIGIR 2019 论文的作家研讨中援用了 WWW‘18 的论文(但很奇异的是,那篇 RecSys 18 论文并没有援用他们本人之前的这项义务)。

针对第 2 条指控,作家标明称,两篇论文都是基于对立教练,WWW『18 的论文也是云云。句子构造中,GRU / CNN 都是相当广泛的序列到序列进修计谋。实行上,其他许众论文也都将 GRU 和 CNN 用于文本外示/文档分类的序列到序列进修。以是两篇论文生成器和识别器部分都遵照相似的计谋是说得通的。

关于第 3 条证据,作家批驳道,这么说并不完备准确。「我们的论文中确实采用了与 RecSys2018 论文相同的瓜代优化方法,但这种方法曾经相当广泛了,之前我们 ECML/PKDD2016 的一篇论文中也运用了这种方法。另一方面,为了修模用户偏好,我们运用了非负矩阵剖析,而不是 RecSys 论文中运用的概率矩阵剖析。这里保管实质性差别。」

关于第 4 条的评估方法,作家外示,「这点不准确:评估是差别的。尽管 MSE 是用于评级预测的广泛运用的器量,但我们的论文中,我们评估了本人的方法四个与 RecSys 论文差别的数据集上的功用。请当心,我们实行部分援用了 WWW'18 论文,曾经明晰阐清楚运用相同的评估方案(其他基于评论的引荐系统的研讨也用到了此方案)。除了 RecSys2018 论文以及其他基于评论的引荐系统的论文中广泛运用的 PMF 和 HFT 两种基线计谋除外,我们还针对 DeepCoNN、TNET 和 WWW'18 论文提出的 TARMF 方法评估了我们的方法。我们的实行中,我们还评估了 RecSys2018 论文中未报告的潜因素数目标影响。这些都是有原理的差别所。」

关于第 5 条提到的公式和符号题目,作家标明称,「SIGIR2019 和 RecSys2018 的论文都是基于对立教练,就像 WWW‘18 那篇论文相同,于是这些符号/公式看起来很像。然而,除了运用差别的矩阵剖析方法除外,对立教练进程也保管少许差别。我们的论文中运用了 RecGAN 2018 中提到的计谋,如引文 [2] 所示:

我们还用到了 IRGAN 2017 的计谋来淘汰教练中的方差,如引文 [18] 所示:

RecSys‘18 那篇论文采用了 2017 预印版论文中的计谋,也便是他们的引文 [26]:

 他们还采用了引文 [46] 中的基线方法:

「重申一下,这是实质性差别。」

除了这五条「证据」除外,原贴作家还给出了三个示例,标明两篇论文的某些段落语言上有何等相似。为了看起来更加直观,有位 Reddit 网友将这三个示例举行了标注。

彩色部分是两篇论文不相同的部分,其余部分则相同。

对此,作家外示,他们本人对这一相似度也感受十分受惊。

关于第一个示例,他们标明称,因为他们的论文只描画了 DeepCoNN 模子的义务原理,以是两个短句看起来十分相似。

原帖中的第一个示例。上:SIGIR 2019 论文第 1 部分。下:RecSys 2018 论文第 2 部分。

至于另外两个示例,作家标明道,因为两个模子都是基于 WWW‘18 论文,而且都用到了基于双向 GRU 和 CNN 的序列到序列进修,以是术语是相同的。比如,运用 GRU/CNN 处理文档分类的序列到序列进修论文用到了相同的术语,如「max-pooling」、「fully connected layer」、「concatenate word embeddings」、「the probability of each word」。于是,这些词这种语境系狼常常睹。于是,后两个例子看起来相似是说得通的。

着末,他们还标清楚为什么没有援用那篇 RecSys 的论文。

作家外示,尽管他们看过那篇 RecSys‘18 论文的希望(他们的论文发外于 SIGIR 论文 deadlin 之前的三个月),但搜寻基于评论和深度进修的引荐系统的论文时,那篇论文并没有惹起他们的当心。「那篇 RecSys 论文的题目是关于众义务进修和可标明引荐的,与基于评论和深度进修的引荐无关。另外,那篇论文的摘要和要害词不会和我们的方法发生直接联络。而且,请当心,那篇论文没有援用 WWW'18 的论文。于是,从援用 WWW‘18 论文的义务中找到那篇论文也是不行够的。」

至此,第一回合 battle 发表完毕。但看到这些标明,原贴的楼主仿佛并不买账。

原贴楼主:你们的标明漏洞百出

原贴楼主继续帖子下再起道,「我很观赏你们可以出来自证明净,但我看来,你们的答复确实漏洞百出」。

楼主当心到,作家回应中提到了两次「SIGIR2019 和 RecSys2018 的论文都是基于对立教练,WWW『18 的论文也是云云」。于是,他去读了这篇论文,但读过之后,他并没有发明任何显示其基于对立进修的地方。以是,他认为作家混杂看法以捉弄读者;

针对作家所说的「我们的论文中运用了 RecGAN 2018 中提到的计谋,如引文 [2] 所示;我们还用到了 IRGAN 2017 的计谋来淘汰教练中的方差,如引文 [18] 所示」,楼主喊话称,「请明晰阐明你论文顶用来淘汰教练方差的计谋并非 RecSys‘18 论文中的计谋。你声称两篇论文所采用的计谋具有『实质性差别』,但我只看到了参考文献是差别的,表面根底确实完备相同。请阐明这一点。」

另外,作家声称「就对用户偏好举行修模而言,我们运用的好坏负矩阵剖析,而 RecSys 论文运用的是概率矩阵剖析」。但楼主认为,概率矩阵剖析属于非负矩阵剖析的一类。另外,楼主还当心到,SIGIR2019 论文最终得出的公式 [5] 与 RecSys'18 论文中公式 [10] 确实完备相同,以是他期望作家明晰阐明保管哪些「实质性差别」。

SIGIR 2019 论文中的公式 [5]。

RecSys'18 论文中的公式 [10]。

着末,关于语言的题目,楼主指出,SIGIR2019 论文不克复制了描画 DeepCoNN 模子的语句,而且还复制了描画 TNet 模子的语句。岂非这也是巧合吗?

另外,关于作家所说的「论文中运用的术语文献中很常睹,以是两段以上相似的实质也是可以了解的」,楼主也无法信服。他外示,「请起码再找一个例子阐明这种『非常相似性』的语句会呈现同行评审的发外论文中。」

关于楼主的新一波质疑,SIGIR2019 作家显得有些疲惫。为了添加说服力,他们爽速本人去查了重并晒出了查重报告。但没念到的是,就连这份查重报告也受到了质疑。

一份被质疑的查重报告

查重报告显示,这篇 SIGIR19 论文与 RecSys18 论文之间的相似度为 7%。作家外示,依据软件公司的说法,24% 及以下的相似度都是很低的(参睹:https://help.turnitin.com/feedback-studio/turnitin-website/student/the-similarity-report/interpreting-the-similarity-report.htm),以是 7% 的相似度真的是很低了。

另外,关于报告第一页显示的五行重复句子,作家外示,这里是议论相关义务,所提到的文献都有标注,他们不应当于是而被钉死十字架上。他们没有声明这里是本人原创的。撰写论文初稿的第一作家也外示论文是他本人写的。

报告第一页截图。

然而,查重报告公然之后,事故并没有就此打住。

原贴楼主认为,论文作家运用的软件是为了反省学生论文抄袭而计划的,学生论文与其他材料有必定程度的重叠是可以承受的,但一个颠末同行评审的论文有这种程度的重叠是不可承受的。而且楼主认为,作家仿佛比错了数据。他们只提到本人的论文与 RecSys18 论文的相似度是 7%,远低于 24% 的分界线,但实行上应当看的数字是该论文与其他材料的总体相似度,而这一数字高达 23%,只比 24% 低一点。

除了这位楼主除外,一位用户名为 eamonnkeogh 的网友也对查重报告提出了质疑,认为 7% 的相似度并缺乏以标明作家的明净,因为真正的抄袭者有种种方法低沉查重率。

SIGIR 大会主席已介入

颠末两轮的 battle,质疑和被质疑者并没有告竣共鸣,但这件事曾经惊动了 ACM SIGIR 主席、SIGIR 大会指点委员会主席 Ben Carterette。他帖子下面留言道,「我们曾经当心到了这个状况。ACM 有明晰的规矩和顺序来报告和断定可以的抄袭事情。家喻户晓,这好坏常告急的指控,最好由具备体验和禀赋的中立第三方来裁决。假如你念正式投诉,你可以投诉。」

另外,他还给出了 ACM 关于抄袭规矩的文献链接。该文献显示,ACM 将抄袭方法分为以下几种:

  • 逐字抄写、确实逐字抄写或成心意译他人作品的某些部分;

  • 抄袭他人作品中不常睹的方程式、外格、图外、插图、演示文稿或照片等元素,抄袭或成心意译他人句子但不给出恰当或完备因由;

  • 一字不差地抄袭他人的部分作品,并给出不准确的因由。

依据抄袭的告急程度,ACM 将抄袭方法分为五级。此中,最轻的一级只需求写负疚信,然后由 ACM 出矫正声明,作品仍有发外的时机。

而关于最告急的抄袭方法,抄袭者不光需求写负疚信,而且五年之内不得向 ACM 的任何机构投稿。另外,抄袭的证据将提交 ACM 职业品德委员会举措参考并发送给抄袭者的院长、导师等相关人士。

就目前的状况来看,这篇 SIGIR 论文是否保管抄袭方法还很难得出定论。 ACM 给出官方裁决之前,大师可以查看两篇论文自行剖析。


相关链接:

  • SIGIR2019 论文:https://gofile.io/?c=ej2y69

  • RecSys 2018 论文:https://researchrepository.ucd.ie/bitstream/10197/10892/4/Why%20I%20like%20it%20Multi%20Task%20learning%20for%20recommendation%20and%20Explanation.pdf

  • reddit 议论:https://www.reddit.com/r/MachineLearning/comments/dq82x7/discussion_a_questionable_sigir_2019_paper/

  • 查重报告完备版:https://drive.google.com/file/d/18tQXFTJX3FCiAO1hlQqrm9eX0aSC-5mc/view

  • ACM 关于抄袭的规矩:https://www.acm.org/publications/policies/plagiarism-overview

初学ACM学术论文抄袭RecSysSIGIR
相关数据
深度进修技能

深度进修(deep learning)是板滞进修的分支,是一种试图运用包罗繁杂构造或由众重非线性变换构成的众个处理层对数据举行高层笼统的算法。 深度进修是板滞进修中一种基于对数据举行外征进修的算法,至今依鳌有种深度进修框架,如卷积神经收集和深度置信收集和递归神经收集等已被运用盘算机视觉、语音识别、自然言语处理、音频识别与生物新闻学等范畴并获取了极好的效果。

众义务进修技能

矩阵剖析技能

矩阵剖析是一种将矩阵简化为其构成部分的方法。这种方法可以简化更繁杂的矩阵运算,这些运算可以剖析的矩阵上施行,而不是原始矩阵本身上施行。它的衍生Non-negative matrix factorization也被用于降维等操作上。

暂无评论
暂无评论~