1. 研究目的与意义
随着大数据时代的到来从海量数据中获取有价值信息的需求日益增加迫切需要一些新的方法来处理海量数据。
聚类分析作为数据挖掘中的重要组成部分对数据挖掘技术的发展有着重要意义聚类分析不仅可以单独对数据集进行处理获得需要的数据分布情况还能够作为其他数据挖掘算法的数据前期预处理操作。
针对传统方法在解决现有问题上的不足和更好的对海量数据进行处理发现数据集中隐含的有价值信息以及能更全面、更高效的满足实际应用需要亟需对相关聚类方法进行深入研究为有效处理大规模数据聚类的问题提出一种先抽样再用最大最小距离进行并行化聚类的方法。
2. 课题关键问题和重难点
明确什么是聚类算法、什么是并行聚类算法,然后基于并行、聚类算法进行大数据处理设计,了解聚类算法与并行聚类算法的关系,为什么要将并行化,并行聚类算法在处理大数据时较于传统的聚类算法有什么优点。
聚类方法的并行化是如何实现的。
难点:对论文的题目内涵了解不够深刻,很找到论文的核心所在;对论文的结构框架不能很好的驾驭。
3. 国内外研究现状(文献综述)
1.前言随着互联网信息量的迅猛增加,如何对海量网络文本信息进行有效处理及价值挖掘已成为当今中文信息处理的研究热点之一,其中大规模文本聚类便是一个重要的研究领域。
随着信息技术的进步以及信息化社会的发展聚类计算任务所面临的数据规模越来越大 算法是一种常用的数据挖掘算法其串行计算方法的时间复杂度比较高处理能力存在局限性 ,新的分布式并行编程模型或框架能组织集群来处理大规模数据集成为云计算平台主流的并行数据处理模型。
课题研究内容分析聚类分析是一个无监督学习过程,一般是用来对数据对象按照其特征属性进行分组,经常被应用在客户分群,欺诈检测,图像分析等领域。
4. 研究方案
互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长, 虽有研究者利用架构进行了并行化研究,但由于很难有效满足需要频繁迭代的特点,因此执行效率仍然不能让人满意。
本文研究提出了基于新一代并行计算系统的文本聚类并行化算法,利用编程模型充分满足了频繁迭代运算的需求。
实验结果表明,针对同一聚类文本大数据集和同样的计算环境,基于的文本聚类并行算法在加速比、扩展性等主要性能指标上明显优于基于的实现,因此能更好地满足大规模文本数据挖掘算法的需求。
5. 工作计划
根据论文研究方向,写出初步论文大纲; 独立进行文献查找和分析文献资料根据各个章节的关键环节进行再次查阅,选定参考资料;能够独立查找、翻译和分析外文资料;参考国内外研究现状和成果,独立分析;根据分析的结果完成系统设计;提交论文提纲按照提纲撰写毕业论文;根据导师意见进行修改和改进;准备答辩;参加毕业答辩。
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。