基于机器学习的电影推荐系统设计与实现开题报告

 2023-11-29 08:39:38

1. 研究目的与意义

随着社会的快速发展,计算机的影响是全面且深入的。人们生活水平的不断提高,日常生活中人们对电影推荐面的要求也在不断提高,热门电影也受到人们的青睐,使得电影推荐系统的开发成为必需而且紧迫的事情。电影推荐系统主要是借助计算机技术,通过对电影推荐系统所需的最新上映,增加用户的选择,同时也方便对广大电影推荐系统的及时查询、修改以及对电影的及时了解。电影推荐系统对用户带来了更多的便利,该系统通过和数据库管理系统软件协作来满足用户的需求。计算机技术在现代管理中的应用,使计算机成为人们应用现代技术的重要工具。能够有效的解决获取信息便捷化、全面化的问题,提高效率。

本课题拟完成基于机器学习的电影推荐系统的设计与实现 ,以应对人们对电影推荐的需求。本电影推荐系统拟采用基于协同过滤的推荐算法,tensorflow算法实现字符识别,mysql保存数据,scrapt当做爬虫框架。这个课题着力点是建立电影网站的个性化推荐功能,以便准确向用户推荐感兴趣的信息。根据用户的历史操作行为,分析用户兴趣喜好,然后把用户比较感兴趣的项目推荐给用户,节约用户浏览时间。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 课题关键问题和重难点

本课题需要解决的关键问题:

1. 基于协同过滤的推荐算法的搭建与运行;

2. 使用scrapy爬取豆瓣网站电影;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状(文献综述)

随着互联网的发展,大数据时代已经到来。着眼当下,互联网规模不断扩大,网民数量不断增加,网络数据爆炸式的增长,使得当今社会已经从以前的信息化时代逐步走进了大数据时代。但随着数据量的增多,数据维度的增加,当用户无法明确自己的需求或需求过于复杂时,如何在茫茫数据和广告中找到有价值的信息就尤为困难。电影产业作为互联网发展带动的产业之一,尤其最近十几年来,2012到2021年,我国电影总票房累计高达4070.9亿元,截至2022年9月底,这个数字已经更新到了4327.6亿元。2012到2021年城市院线总观影人次累计约113.2亿,2022年也已经有超过6.1亿人次走进影院;全国电影银幕总数不断增长,2021年达到82248块;国产电影在市场中的地位日益凸显,2021年国产电影票房占全国电影总票房比重再创新高,达到84.49%。但电影品质并未随着数量一同上升,质量参差不齐。豆瓣电影评分6分以上的电影仅占25%。一些影片质量低劣,对国产电影的口碑产生了巨大的影响。并且,国内电影题材也逐渐多样化,风格各异。如何为广大用户推荐到适合用户的高品质的电影,对各大视频网站有着重要的意义。

推荐系统的起源可追溯到二十世纪九十年代,至今已有20多年。最早源自明尼苏达大学的一个叫做GroupLens研究小组对电影推荐系统MovieLens的研究。当时的推荐系统借鉴了众多相关领域的研究成果,其中包括近似理论、认知科学、预测理论、信息检索、管理科学和市场建模等多个领域的知识。此后,卡耐基梅隆大学推出Web Watcher系统用于辅助信息查找,斯坦福大学提出个性化推荐系统LIRA,麻省理工大学研发了个性化导航系统Litizia。在应用领域中,亚马逊的商品推荐系统、Netflix举办的推荐系统大赛以及Google广告联盟均有效的提高了网站的用户数量和营业额。

推荐系统主要依赖于商品信息、用户信息和用户的行为数据,可以根据用户的行为特征将其行为数据分为两类。第一类行为数据是用户评分,该类数据明显清晰的表现了用户的喜爱程度,被称为显示反馈数据;第二类数据是表示用户是否有浏览、收藏、购买等行为的数据,被称为隐式反馈数据。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究方案

1. 系统功能结构:

图1 系统功能结构示意图

1.用户端的基本流程共有四个步骤:

1) 用户在系统首页可浏览电影、搜索电影、个性化推荐。

2) 用户输入用户名、年龄、性别、邮箱、登录密码进行注册。

3) 用户注册成功后输入正确的登录凭证进入系统,若登录凭证不正确,系统会自动返回到登录页面,提示用户重新输入登录信息,直到用户成功登录进入系统。

4) 用户成功进入系统后,可以进行电影打分、修改信息、个性化推荐等。

具体如图2所示:

图2 用户端基本流程

2.管理员端的基本流程共有四个步骤:

1) 管理员输入正确的登录凭证进入系统,若登录凭证不正确,系统会自动返回到登录页面,提

示管理员重新输入登录信息,直到管理员成功登录进入系统。

2) 管理员成功进入系统后,首页显示用户数量、电影类型数量、电影数量、评分数量等数据统

计信息。

3) 管理员具有用户管理、电影类型管理、电影管理、评分管理等功能。

具体如图3所示:

图3 管理员端的基本流程

2. 数据库设计:

用户表(用户ID,年龄,性别,职业,(主题)喜好,账户,密码)

电影表(电影ID,标题,上映时间,电影类别,导演,语种,厂商,观看次数,评分,主演)

管理员表(管理员ID,账号,密码)

用户观影记录表(用户ID电影ID,评分,时间)

用户评价表(用户ID电影ID,评论,赞同数,反对数,时间)

图4 数据库E-R图

3. 推荐算法设计:

推荐算法使用基于用户的协同过滤推荐算法。逻辑如下:

1)后端服务赖于系统数据库的推荐表展示给用户推荐内容;

2)用户对电影打分后,后台应用会向数据库中插入一条数据;

3)新用户注册,系统会向数据库中插入一条新用户注册消息;

4)新电影添加,系统会向数据库中插入一条新电影添加消息;

5)推荐模块会拉取用户的打分消息,并且并行的做以下操作:

a. 增量的更新训练样本;

b. 快速对用户行为进行基于内容推荐的召回;

c. 训练样本更新模型;

d. 使用FM,LR模型对所召回的数据进行精排;

e. 处理新用户注册消息,监听到用户注册消息后,对该用户的属性初始化(统计值);

f. 处理新电影添加消息,更新基于内容相似度而生成的相似度矩阵。

5. 工作计划

2022-2022-1学期:

第15-16周:完成选题,查阅相关中英文资料。

第17周:与导师沟通进行课题总体规划。

剩余内容已隐藏,您需要先支付 1元 才能查看该篇文章全部内容!立即支付

以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。