浅析机器学习在推荐系统中的应用

2022-09-11

推荐系统是一种根据用户的历史记录帮助用户过滤无关信息、创建用户兴趣模型的系统。在互联网信息不断发展的现在, 推荐系统得到了业界的普遍关注。

一、推荐系统

(一) 系统的架构

如今主流的推荐系统重点由三个部分组成:有关物品检索、物品排序以及用户特征提取。第一, 有关物品检索模块。这个模块利用用户特点, 很快找到用户也许有兴趣的候选物品。这个模块通常经过信息检索的形式完成, 经过“特点—物品”的倒排索引, 很快找到与用户有关的物品[1]。第二, 推荐结论排序模块。这个模块按照机器学习的算法, 经过完善某一指标 (例如转化率、点击率) 获得最佳模型。以点击率为例, 这个模型能够根据候选物品特点以及用户特点, 得出用户对物品的预估点击率, 然后把候选物品依照点击率进行排序。排序参考的指标之一就是预估点击率, 在大量的系统中, 排序时还应该整体考虑结果的新颖性以及多样性。第三, 用户特点提取模块。这个模块经过获得用户的行为记录与有关信息形成用户特点。这些特点能够进一步描述用户的兴趣。

(二) 用户特点获取以及聚类算法

把图书网站作为例子。用户登录网站以后, 推荐系统很快会提取这个用户的特点, 便于推荐和这个用户感兴趣的图书相符。用户特点涵盖以下几点: (1) 用户历史记录上购书的身份; (2) 用户的性别与年龄; (3) 用户阅读过的网页; (4) 用户在网站上搜寻过的关键词; (5) 用户在网站上的其余活动, 例如评论、收藏以及评分等。在上述特点中, 除了性别、年龄以外, 其余特点的维度通常都较高。假如直接把它们当作特点, 具有两方面问题:第一, 稀疏性问题;第二, 也许会导致系统后面的模块, 尤其是检索模块的运算量逐渐增多, 进一步降低了系统的性能。为了提升检索模块的效率, 推荐系统使用降维措施减少了维度。降维是一种主要的无监督机器学习的措施。第一种降维的办法是按照兴趣把用户实行聚类。比如按照用户的历史兴趣把用户分为不同类, 比如科技爱好者与历史爱好者等。机器学习中的聚类算法能够分成软聚类、硬聚类。硬聚类的典型算法是层次聚类以及K-Means, 这两种算法都能够在推荐系统中应用。硬聚类的优势是将用户兴趣归属为一类, 而在现实的生活中, 用户的兴趣是各种各样的, 这种假设肯定是不太正确的。用户兴趣聚类中软聚类的运用更加普遍, 主题模型就是在推荐系统中运用最普遍的软聚类算法。

(三) 有关物品检索

在取得用户的兴趣以后, 推荐系统应该按照特点找到和用户有关的物品。推荐系统通常根据倒排索引技术进一步完成有关物品的检索。这个模块的核心工作是:利用倒排索引与生成倒排索引实行检索[2]。推荐系统中最具代表性的索引是“物品—物品”索引。利用这个索引的推荐系统是针对物品的推荐系统。推荐系统探究的主要问题之一就是计算物品之间的相关度。有关物品的推荐系统是为了在用户欣赏某物品的时候, 为用户举荐与这个物品有关的其余物品。现在主流计算物品的相关度的具体算法包含:用户行为方面的物品相关度算法、内容方面的物品相关度算法。基于内容计算物品的相关度通常使用文本挖掘以及自然语言理解的有关算法。协同过滤算法的主要构成部分就是基于行为的物品相关度算法, 其与机器学习行业的关联准则息息相关。利用多种数据来源, 能够计算出不一样的物品相关度。比如, 从内容开始分析, 基于正文与作者计算得到相关度;从行为开始分析, 基于浏览行为与搜索行为计算得到相关度。

(四) 点击率预估以及两类分类问题

在获得和用户有关的候选物品以后, 然后就应该对候选物品实行排序。尽管有关物品检索模块可以获得用户与物品的相关度, 却不可以单一地依照相关度排序, 这是由于不同类型的特点获得的相关度不一样, 它们之间不可以相互对比。于是应该拥有一个统一的指标进一步计算用户关于物品的兴趣, 对物品实行排序。这个指标应该同时满足两个条件:第一, 可以直接优化现有机器的学习算法;第二, 进一步反映出使用推荐系统的相关网站的商业目标。点击率应该满足下面几个条件, 一方面, 提升点击率在某种程度方面是网站盼望的结果;另一方面, 点击率预估问题能够转变成以前的两类分类问题, 而机器学习探究中最老练的问题就是两类分类问题。于是, 点击率预估模块的工作是对每个候选物品的点击率进行计算, 然后把物品依照点击率进行排序且输出。应该把一个问题转变成两类分类问题, 首先应该创建两类分类问题所需要的数据集。数据集由类标与特征构成[3]。代表性的两类分类器有支持向量机、神经网络、决策树以及逻辑回归。用来点击率预估的分类器应该满足以下条件: (1) 能够在大范围数据集上对分类器模型进行训练; (2) 应该清楚样本是负类还是正类, 还应该大概了解样本是正样本的几率, 就是预估的点击率; (3) 能够不断更新、增量; (4) 满足在线及时预估的相关要求; (5) 可以提供预估点击率的信用度; (6) 极易作出预估结果的相关解释。现在, 逻辑回归就是可以同时满足以上相关要求的主要分类算法。逻辑回归属于线性模型, 能够确保在线预测性能。其模型训练已经具有成熟的并行化方法, 于是能够用于大范围的数据集上。同时, 逻辑回归模型能够不断更新、增量:利用在线学习下的优化策略, 能够完成模型的在线更新;利用贝叶斯网络下的逻辑回归, 能够提供预测结果的信用度;在解释预测结果的时候, 能够利用权重高的特点当作解释。使用逻辑回归的策略并不是代表已经解决了点击率的预估问题。对于逻辑回归的后续探究仍在继续。另外, 逻辑回归算法在特征数与样本数很多的情况下比较适用。当特征数与样本数很少的时候, 点击率预估问题仍然值得深入探究。

二、结语

文章分析了机器学习算法在推荐系统中的普遍应用。推荐系统的设计者应该拥有把产品需求转变成机器学习问题的技能, 可以了解机器学习的算法以及研究方向, 利用到各种算法, 这样才可以设计出一个卓越的系统。

摘要:为了解决如今推荐系统的个性化效果不好以及准确度不高等问题, 对推荐系统中机器学习的运用进行了简要分析。

关键词:机器学习,推荐系统,应用

参考文献

[1] 周齐.基于机器学习的推荐系统[J].电子技术与软件工程, 2016, (24) :173.

[2] 邴欣.机器学习在推荐系统中的应用[D].济南:山东大学, 2016.

[3] 杨雷.基于机器学习的个性化推荐算法研究[D].哈尔滨:哈尔滨工程大学, 2017.

上一篇:浅谈跨文化交际与外语教学下一篇:未足月胎膜早破孕妇的心理护理和健康宣教