引荐系统

引荐系统(RS)重假如指运用协同智能(collaborative intelligence)做引荐的技能。引荐系统的两大主流类型是基于实质的引荐系统和协同过滤(Collaborative Filtering)。另外另有基于常识的引荐系统(包罗基于本体和基于案例的引荐系统)是一类特别的引荐系统,这类系统更加注重常识外征和推理。

简介

引荐系统(RS)重假如指运用协同智能(collaborative intelligence)做引荐的技能。特征化引荐系统可以有用的办理新闻过载题目,引荐系统依据用户的历史偏好和束缚为用户供应排序的特征化物品(item)引荐列外,更精准的引荐系统可以晋升和改良用户体验。一般可以依据用户偏好、商品特征、用户-商品商业和其他状况因素(如时间、时节、位置等)生成引荐结果。所引荐的物品可以包罗影戏、册本、餐厅、新闻条目等等。

引荐系统的相关文献把它们分成三类:协同过滤(仅运用用户与商品的交互新闻生成引荐)系统、基于实质(应用用户偏好和/或商品偏好)的系统和混淆引荐模子(运用交互新闻、用户和商品的元数据)。这些种别中的模子都有范围性,如数据希罕性、用户和商品的冷启动。引荐系统的两大主流类型便是上文提到的①基于实质的引荐系统和②协同过滤(Collaborative Filtering)。协同过滤方法依据用户历史方法(比如其置办的、挑选的、评判过的物品等)联合其他用户的相似计划修立模子。这种模子可用于预测用户对哪些物品可以感兴味(或用户对物品的感兴味程度)。基于实质引荐应用少许列相关物品的离散特征,引荐出具有相似实质的相似物品。目前,协同过滤技能已成为最广泛采用的引荐技能,曾经被广泛运用到了许众商业系统中,比较出名的有Amazon、Netflix、淘宝等。

另一方面,跟着深度进修运用的爆发式开展,特别是盘算机视觉、自然言语处理和语音方面的希望,基于深度进修的引荐系统越来越激起大师的体恤。轮回神经收集(RNN)表面上可以有用地对用户偏好和物品属性的动态性举行修模,基于目今的趋势,预测未来的方法。

[描画根源:交融 MF 和 RNN 的影戏引荐系统|中文字幕AV]

用于引荐系统的深度进修方法可以分为:

  1. 基于众层感知机(Multilayers Perception)的引荐系统;
  2. 基于自编码器(Autoencoders)的引荐系统——将自编码器运用于引荐系同一般有两种常用方法:(1)运用自编码器瓶颈层(bottleneck layer)来进修低维度特征外征;或者(2)直接重构层填充评分矩阵的空白处;
  3. 基于卷积神经收集(CNN)的引荐系统:此种系统中的卷积神经收集大众是用于特征提取(feature extraction)的;
  4. 基于轮回神经收集(RNN)的引荐系统:轮回神经收集特别适用于处理引荐系统中的评级和序列特征的时序动态;
  5. 基于深度语义相似性模子(Deep Semantic Similarity Model)的引荐系统:深度语义相似性模子(DSSM)是一种广泛运用于新闻检索范畴的深度神经收集。它十分适用于排行榜(top-n)引荐。根底型DSSM由MLP构成,更高级的神经层比如卷积层和最大池化(max-pooling)层可以被很容易地添加进去;
  6. 基于受限玻尔兹曼机(Restricted Boltzmann machine)的引荐系统;
  7. 用于引荐系统的深度复合收集(Deep composite models);

下图总结了基于深度进修的引荐系统分类的二维系统,左侧部分对神经收集模子举行了阐明,右侧部分则阐清楚整合模子。

[描画根源:学界 | 一文综述所有用于引荐系统的深度进修方法|中文字幕AV]

另外另有基于常识的引荐系统(包罗基于本体和基于案例的引荐系统)是一类特别的引荐系统,这类系统更加注重常识外征和推理。目前也有许众研讨试图将这些差别的技能联合起来,以联合种种技能的优点。

开展历史

1985年,David K. Gifford等学者发外了An architecture for large scale information systems,奠定了引荐系统相关研讨的根底。1988年,Stephen Pollock描画了用于筛选文本新闻的ISCREEN系统。 ISCREEN包罗用于定义规矩的高级界面,用于屏幕显示文本新闻的组件以及用于反省差别等的冲突检测组件。 这是比较早期的过滤系统。1990年,Ernst Lutz等学者提出了MAFIA,当时的新闻过滤系统请求要处理的新闻起码是半构造化的,MAFIA系统(MAil-FIlter-Agent)通过供应主动文档分类组件来抑制这个限制,主动识别弱构造化文档的相关看法。1992年,David Goldberg等学者提出了Tapestry,第一个协同过滤系统。这是施乐帕洛阿尔托研讨中心开辟的邮件系统。 Tapestry的动机来自于电子邮件的运用越来越众导致用户被大宗传入的文档淹没。 处理大宗邮件的一种方法是供应邮件列外,运用户可以只订阅他们感兴味的列外。一个更好的办理方案是让用户指定一个过滤器来扫描所有列外,挑选感兴味的文档,而不管邮件终究哪个列外中。这即是Tapestry的计划理念,Tapestry义务的一个根来源则是可以通过让人类到场过滤进程来举行更有用的过滤。

引荐系统成为一个相对独立的研讨偏向一般被认为始自 1994 年明尼苏达大学 GroupLens 研讨组推出的GroupLens 系统。该系统有两大主要奉献:一是首次提出了基于协同过滤 (Collaborative Filtering)来完毕引荐义务的思念,二是为引荐题目修立了一个方式化的模子。 基于该模子的协同过滤引荐引颈了之后引荐系统以后十几年的开展偏向。这个团队的计划思道也延迟到其他产物修立,比如册本和影戏。 相应的引荐系统区分被称为BookLens和MovieLens。

1998年,John S. Breese等学者对基于用户的协同过滤系统的外现举行了评判,运用的算法包罗基于相关连数,基于向量的相似度盘算和统计贝叶斯方法的技能。他们运用两种基本的评估目标,第一个目标权衡了一组单个预测的准确度,以平均绝对偏向为目标;第二个目标权衡引荐的项目排名列外的效用,以用户有序列外中看到引荐的概率的估量值为目标。2001年Badrul Sarwar, George Karypis, Joseph Konstan, 和John Riedl对差别的基于项目标引荐生成算法(item-based recommendation generation algorithms)举行了比较,主要从盘算项目相似度的技能和随后应当运用的引荐生成模子两方面举行比较。他们以k-近邻方法为基准,比较结果显示基于项目标算法比基于用户的算法(user-based algorithm)外现更好,同时能供应比最好的基于用户的算法更好的引荐结果。

Thomas Hofmann于1999年提出了pLSA,并文中描画了pLSA与LSA(潜语义剖析)的区别,即LSA主要基于奇特值剖析(SVD)而pLSA则依赖混淆剖析。他随后举行了一系列实证研讨,并议论了pLSA主动文档索引中的运用。他的实证结果外明pLSA相关于LSA的外现有分明进步。同年末,Will Glaser和Tim Westergren提出了音乐基因组方案(Music Genome Project)的念象。2000年1月,他们与Jon Kraft联手创立了Savage Beast Technologies,将他们的念法推向墟市。这是比较早的将引荐系统技能运用于实行的商业项目之一。此后引荐系统技能的落地越来越速。如Last.fm于2002年开端运用引荐算法为用户引荐他们可以喜爱的音乐。首次商业系统中运用协同过滤技能的公司应当是Netflix,他们取得了很好的效果,随后许众公司也纷纷采用了这一技能。如亚马逊网站上,他们运用引荐算法为每位顾客特征化网上市肆。他们发外的论文中提出了项目到项目协同过滤(item-to-item collaborative filtering),并与常睹的方法——古板协同过滤(traditional collaborative filtering),聚类模子(cluster models)和基于搜寻的方法(search-based methods)——举行了比较。他们算法的线盘算范围与客户数目和产物目次中的项目数目无关,并能及时生成倡议,也可以扩展到海量数据集,生成高质料的倡议。Netflix这一范畴也不停不时研讨,Netflix Prize竞赛上,Yehuda Koren思索到因为客户对产物的偏好跟着时间的推移而改造,对时间动态举行修模关于计划引荐系统或一般顾客偏好模子至关主要而提出了动态引荐系统。跟着引荐系统越来越受到注重,ACM RecSys集会于2007年创立,目前已成为是引荐系椭仂域最好的特别集会。

近年来,跟着神经收集的开展,不少研讨也将神经收集与引荐系统联合了起来,此中不少方法都实验运用少许深度神经收集替代矩阵剖析。2017年He等人运用深度进修开辟了一个通用框架对用户-条目交互矩阵举行直接修模——而非只对辅帮数据运用深度进修。该研讨提出的方法完备替代了基于矩阵剖析,或矩阵剖析举措通用模子特例用于生成用户和条目躲藏特征的方法。该研讨提出的通用模子与业内最佳矩阵剖析方法(如 eALS 和 BPR)和根底基准(如 ItemPop 和 ItemKNN) MovieLens 和 Pinterest 数据集上举行了比较。该方法两个数据集上的外现均较上述方法有了进步。V. Bogina和T. Kuflik则提出了一个 RNN 模子以联合中止时间(用户花某个引荐条目上的时间),于是该模子可以晋升基于会话的引荐系统电子商务数据集(Yoochoose)上的引荐准确度。

引荐系统已有的种种运用让我们将其归入了运用阶段。因为引荐系统仍有少许题目尚待办理,而且许众人可以以致还不晓得引荐系统的保管,以是我们没有将其归入社会影响阶段。但引荐系统的运用范围日益广泛,许众媒体和行业也日益扩增其影响力;以是我们置信引荐系统很速就将进入社会影响阶段。

主要事情

年份事情相关论文
1985David K. Gifford等学者发外了An architecture for large scale information systems,奠定了引荐系统相关研讨的根底Gifford, D. K. (1985). An architecture for large scale information systems. Proceedings of the tenth ACM symposium on Operating systems principles. pp 161-170.
1988Stephen Pollock描画了用于筛选文本新闻的ISCREEN系统Pollock, S. (1988).A rule-based message filtering system.ACM Transactions on Information Systems (TOIS). 6(3):232-254.
1990Ernst Lutz等学者提出了MAFIALutz, E.; Kleist-Retzow, H. V.; Hoernig, K. (1990).MAFIA—an active mail-filter-agent for an intelligent document processing support.ACM SIGOIS Bulletin. 11(4):16-32.
1992David Goldberg等学者提出了Tapestry,第一个协同过滤系统Goldberg, D.; Nichols, D.; Oki, B. M.; Terry D. (1992).Using collaborative filtering to weave an information tapestry.Communications of the ACM - Special issue on information filtering. 35(12):61-70.
1992/1994明尼苏达大学 GroupLens 研讨组修立并推出GroupLens 系统Resnick, P.; Iacovou, N. et al. (1994). GroupLens: An Open Architecture for Collaborative Filtering of Netnews. Proceedings of ACM Conference on Computer Supported Cooperative Work, CSCW. pp.175-186.
1998John S. Breese等学者对基于用户的协同过滤系统的外现举行了评判,运用的算法包罗基于相关连数,基于向量的相似度盘算和统计贝叶斯方法的技能Breese, J. S.; Heckerman, D.; Kadie, C. (1998). Empirical Analysis of Predictive Algorithms for Collaborative Filtering. Proceedings of the Fourteenth conference on Uncertainty in artificial intelligence. pp 43-52.
1999Thomas Hofmann提出了pLSAHofmann, T. (1999). Probabilistic Latent Semantic Analysis. Uncertainity in Arti cial Intelligence.
2001Badrul Sarwar, George Karypis, Joseph Konstan, 和John Riedl对差别的基于项目标引荐生成算法(t item-based recommendation generation algorithms)举行了比较Sarwar, B.; Karypis, G.; Konstan, J. Riedl, J. (2001). Item-Based Collaborative Filtering Recommendation Algorithms. Proceedings of the 10th international conference on World Wide Web. pp 285-295.
2003亚马逊提出项目到项目协同过滤(item-to-item collaborative filtering)Linden, G.; Smith, B. and York, J.(2003). Amazon.com recommendations: item-to-item collaborative filtering.IEEE Internet Computing.7(1): 76-80.
2010Yehuda Koren提出了动态引荐系统Koren, Y. (2010).Collaborative filtering with temporal dynamics.Communications of the ACM. 53(4):89-97.
2017He等人运用深度进修开辟了一个通用框架对用户-条目交互矩阵举行直接修模——而非只对辅帮数据运用深度进修He, X.; Liao, L.; Zhang, H.; Nie, L.; Hu, X.; and Chua, T. -S.(2017). Neural Collaborative Filtering. Proceedings of the 26th International Conference on World Wide Web - WWW ’17, pp. 173–182.
2017V. Bogina和T. Kuflik提出了一个 RNN 模子以联合中止时间(用户花某个引荐条目上的时间),于是该模子可以晋升基于会话的引荐系统电子商务数据集(Yoochoose)上的引荐准确度Bogina, V.; Kuflik, T. (2017). Incorporating dwell time in session-based recommendations with recurrent Neural networks. CEUR Workshop Proceedings. 1922: 57–59.

开展剖析

瓶颈

引荐系统的主要瓶颈是权衡方面:跟着引荐变得越来越细,就很容易将人们限制一个曾经受益的范畴。调解新颖度所占的百分比是很难挑选的;另外做引荐还需求找到更好的引荐与隐私维护之间的均衡。另外,引荐系统的结果除了依赖于算法的挑选除外,对数据也比较敏锐,怎样避免用户供应恶意评判而对引荐系统的结果带来的偏向,以及怎样使得那些与任何一群人差别等的用户从引荐系统中受益,都需求更众的打破。

未来开展偏向

  • 可以会呈现更相似人类的引荐,就像是身边的朋侪给出的倡议相同。
  • 引荐系统的运用将疾速扩散到许众范畴。
  • 抱负的状况是一个360°全方位的引荐系统:引荐不限于单个范畴,而是可以整合一私人的方方面面,从而给出跨范畴的更有帮帮/更有原理的引荐。
  • 涵盖更众范畴的、更众的公然数据集,可以有益于同样的基准上举行比较进修的研讨。
  • 可以与用户有更众互动的引荐平台,使得评估引荐系统可以近实状况中的举行功用改良。
  • 其他范畴创制公然数据集,比如学术作家-作品数据集、线零售数据集、包罗用户-引荐条目标交互新闻以及相关用户。

Contributor:Yuanyuan Li, Mos Zhang

相关人物
John S. Breese
John S. Breese
Joseph Konstan
Joseph Konstan
简介
相关人物