1. 研究目的与意义
进入二十一世纪这个信息爆炸的时代,各行业都开始转向信息化。
随着信息的不断膨胀,如何帮助人们有效地收集和选择所感兴趣的信息,更关键的是如何帮助用户在日益增多的信息中自动发现新的概念并自动分析它们之间的关系,使之能够真正地做到信息处理的自动化,这已成为信息技术领域的热点问题。
淘宝是当今社会中国最大的网络交易平台,根据客户的浏览历史,分析客户行为,从而得到客户的兴趣模型不仅具有重要的商业价值,也给客户带来巨大便利,从而促进消费,拉动经济社会的发展。
2. 课题关键问题和重难点
本课题的关键问题是做好数据库的连接,编写程序完成不同用户界面的操作,配置开发环境是本课题的第一步,也是关键的一步。此外,对数据库的设计与开发也是一个关键,在保证系统的流畅性的同时,也要保证数据的安全性,这同样也是一个难点。
本课题中的另外一个难点就是数据挖掘。其中涉及数据挖掘的种类:关联规则,数据分类技术,聚类规则,泛化、简约和特征提取,并且要完成半结构化的数据查询的相应功能代码以及优化。
3. 国内外研究现状(文献综述)
自1989年第11届国际联合人工智能学术会议上首次提出KDD这一概念以来,数据挖掘日益受到人们的关注。并已经成为当前计算机领域的一大热点,其研究的重点也逐渐从发现方法转移到系统应用,并且注重多种发现策略和技术的集成,以及多学科之间的相互渗透。从总体上,国外在数据挖掘领域中的研究内容十分广泛,从挖掘知识的种类看,己经取得了明显的成果。
Internet是目前全球最大的数据集合,基于Web的数据挖掘一直是国内外学者研究的热点。随着网络技术的迅猛发展,Web上的数据正以指数级的形式飞速增长,这使得基于单一节点的挖掘平台不能完成目前海量数据网络的分析任务。因此,解决此类问题需要借助云计算强大的计算能力。web数据挖掘就在这样的背景下与电子商务结合在一起,它是在Iniemet出现后产生的数据挖掘一个新的分支,主要研究在Internet网络上,对各种数据源,如web日志、用户登记信息、页面内容等,利用数据挖掘技术寻找网络上数据间各种隐含的知识模式和获取一些预测性信息。把web数据挖掘用于电子商务,可以帮助指导站点改进服务、调整结构和实施有针对性的商业行为,以更好地满足访问者的需求。Web数据挖掘是从Web的超链接结构、网页内容和使用日志中挖掘有用的信息[5]。Web数据挖掘主要分为3类:Web内容挖掘(Web Content Mining),Web 结 构 挖 掘(Web Structure Mining)和 Web 日志挖掘(Web Usage Mining)。Web 日志挖掘就是对用户访问 Web 时的访问记录进行数据挖掘。通过分析和研究日志的规律, 实现聚类、分类、关联规则、序列分析等 Web 日志挖掘算法。
随着电子商务的蓬勃发展是Web数据暴涨的主要原因之一,数据挖掘和数据分析技术的进步又进一步推动了电子商务的发展。电子商务中广泛存在各种数据挖掘技术,比如从顾客购物的历史数据中发现商品间存在的关联模式和序列模式;从顾客的标签、个人信息、收藏历史等数据中发现顾客兴趣模型,从而建立一个行之有效的推荐系统。
4. 研究方案
第一步,确定挖掘对象、目标。认清数据挖掘的目的是数据挖掘的重要一步。我们的目的是得到淘宝中用户的信息并进行分析,存储到数据库中供上层使用。
第二步,设计标签体系中mysql的表结构。确定挖掘对象为网站注册用户后,我们要为用户设计mysql表结构,涉及到原子标签表,每类标签的规则表及其从表,标签分类体系表等。
第三步,数据采集。这是一个工作量较大,占据时问较多的一个阶段。我们需要通过采集注册用户的相关信息。
5. 工作计划
1.第1周任务:查看任务书,查阅相关资料、咨询导师,理清课设任务
2.第2周任务:翻译外文文献并撰写开题报告
3.第3周~第4周任务:确定开发工具myeclipse,搭建数据库mysql环境,并设计相关表结构
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。