1. 研究目的与意义
随着在线电影数量的飞速增长,要想从众多的电影中选择一部自己想看的电影变得越来越困难。为了更好地满足用户的观影需求,电影推荐系统应运而生,它通过用户的观影记录来发现用户的兴趣,从而帮助用户在众多电影中筛选到自己感兴趣的电影。而电影推荐系统中最常用的推荐算法就是基于物品的协同过滤算法,该算法的关键是计算物品的相似度及推荐评分,相似度矩阵是一稀疏矩阵,已有的一些电影推荐系统中通常采用二维数组来存放相似度矩阵,利用第三方扩展库Numpy来计算推荐评分,时间空间效率相对较低,而利用Python内置的序列字典来存放稀疏矩阵,自行编写相应的代码来求解相似度和推荐评分,可有效提高算法的时间、空间效率。
2. 研究内容和预期目标
推荐系统是建立在海量数据挖掘基础上的,它通过分析用户的历史数据来了解用户的需求和兴趣,从而将用户感兴趣的信息、物品等主动推荐给用户,其本质是建立用户与物品之间的联系。一个完整的推荐系统通常包含3个模块:用户建模模块、推荐对象建模模块和推荐算法模块。推荐系统首先对用户进行建模,根据用户行为数据和属性数据来分析用户的兴趣和需求,同时也对推荐对象进行建模。接着,基于用户特征和物品对象特征,采用推荐算法计算得到用户可能感兴趣的物品,然后根据推荐场景对推荐结果进行一定的推荐和调整,最终将推荐结果展示给用户。而协同过滤算法分为基于用户的协同过滤算法和基于物品 的协同过滤算法。基于用户的协同过滤算法(简称UserCF),通过不同用户对物品的评分来评测用户之间的相似性,基于用户之间的相似性 做出推荐。简单来讲就是:给用户推荐和他兴趣相似的其他用 户喜欢的物品。 基于物品的协同过滤算法(简称ItemCF),通过用户对不同 物品的评分来评测物品之间的相似性,基于物品之间的相似性 做出推荐。简单来讲就是:给用户推荐和他之前喜欢的物品相 似的物品。 UserCF 算法和ItemCF 算法思想类似,其实现过程也基本类似,唯一不同的是一个是计算用户相似度,一个是计算物品 相似度。 UserCF 算法和 ItemCF 最主要的区别在于:UserCF 推荐的 是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品,ItemCF算法则推荐那些和目标用户之前喜欢的物品类似的其 他物品。根据前面对协同过滤算法的分析,电影推荐系统适合采用基于物品的协同过滤算法(简称ItemCF)。基于物品的协同过滤算法是给目标用户推荐那些和他们之前喜欢的物品相似的物品。此算法并不利用物品的内容属性计算物品之间的相似度,而主要通过分析用户的行为记录来计算物品之间的相似度。ItemCF算法主要包括两步:①:相似度计算,得到各item之间的相似度:基于余弦(Cosine-based)的相似度计算;基于关联(Correlation-based)的相似度计算;调整的余弦(Adjusted Cosine)相似度计算。②:预测值计算,对用户未打分的物品进行预测和加权求和。用户u已打分的物品的分数进行加权求和,权值为各个物品与物品i的相似度,然后对所有物品相似度的和求平均,计算得到用户u对物品i打分和回归。如果两个用户都喜欢一样的物品,因为打分习惯不同,他们的欧式距离可能比较远,但他们应该有较高的相似度 。在通过用线性回归的方式重新估算一个新的R(u,N).
3. 国内外研究现状
国外案例:Amazon.com的推荐:从商品到商品的协同过滤推荐算法以其在电子商务网站的用途而著称1,它们利用有关一个顾客的兴趣作为输入,来产生一个推荐商品的列表。很多应用仅仅使用顾客购买并明确表示代表其兴趣的商品,但它们也可以利用其他属性,包括已浏览的商品、人口统计特征数据、主题兴趣,以及偏爱的艺术家。Amazon.com利用推荐算法,对每位顾客提供在线商店个性化。在顾客兴趣的基础上,商店有了彻底的改观,向一个软件工程师展示编程类标题,向一位新妈妈展示婴儿玩具。点击率和转化率——基于网络和邮件广告的两个重要评估指标——极大地超越了那些未定向内容,比如banner广告和热卖列表。
国内案例:网易云音乐的音乐推荐和京东等电商平台的产品推荐都是依据用户相似性,即两个用户有相同的爱好做出的推荐。基于项目的推荐——将相同类型的东西推荐给用户。解决推荐问题有三个通常的途径:
1. 传统的协同过滤2. 聚类模型3. 基于搜索的方法。这与国外使用的方法大体上也是一致的。
4. 计划与进度安排
1.数据来源:MovieLens是推荐系统常用的数据集。MovieLens数据集中,用户对自己看过的电影进行评分,分值为1-5.MovieLens包括两个大小不同的库。适用于不同规模的算法,小规模是943个用户对1682部电影做约10000次评分的数据,大规模的是6040个用户对3900部电影做大约100万次评分。
2.数据预处理:首先,将所需数据读入并进行一定的预处理,将用户评分记录的前 3 项(用户 ID、电影 ID、评分)和电影信息文件的前 2 项(电影ID和电影名称)依次读出并放到字典中。评分记录信息用于求解电影相似度,电影信息用于推荐结果展示。
3.求解电影相似度 :电影相似度的求解可直接利用电影同现矩阵来实现。
5. 参考文献
[1] 张月蓉.基于混合推荐的电影推荐系统的研究与实现[D]合肥:安徽大学
[2]朱扬勇,孙婧.推荐系统研究进展[J].计算机科学与探索
[3] 郭彩云, 王会进,改进的基于标签的协同过滤算法[J].计算机程与应用
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。