基于BERT的微博关键词抽取开题报告

 2022-08-14 09:47:19

1. 研究目的与意义

随着自然语言处理研究的逐步深入,关键词作为表达文档主题意义的最小单位在多项自然语言处理任务诸如文本摘要、文本分类中都发挥了重要的作用。与此同时,呈指数型增长的文本数据使得传统的人工标注手段已无法满足会的实际需求,所以关键词的自动提取技术已成为了学术界与工业界共同关注的.问题不论是基于文本的推荐还是基于文本的搜索,亦或是分析文本的主题思想,都可以通过从大量文本提取的关键词来达成,关键词提取的准确程度直接关系到后续更深度的应用和数据挖掘分析,因此关键词提取在文本挖掘领域是一个重要的部分。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

1.如何采用注意力机制筛选出候选词

2.构建神经网络进行深度学习训练出特征

3.判断候选词是否为关键词

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状

自 Luhn 在 1957 年首次提出了基于词频的关键词自动抽取方法以来,关键词的自动提取方法历经六十多年的发展已经衍生出了许多类别,也有不同的分类方法,一般分为有监督和无监督。[6]

无监督发展

1.Wan 等提出了 SingleRank,用单词之间的共现次数来度量各节点间边的权重。基于这种想法,SGRank 使用单词的首次出现位置、词长等统计指标为候选词的边赋值[7]

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 计划与进度安排

1.查取网络资料,深入学习注意力机制以及深度学习算法

2.查取论文,了解其他的关键词提取方式

3.结合资料尝试实现关键词抽取

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 参考文献

知网论文,知乎专栏,csdn相关博客等等

[1] 基于改进TF-IDF算法的信息抽取系统设计与实现[D].北京邮电大学,2019.

[2]菁菁. 基于社会标签的无监督微博关键字抽取算法[D].武汉理工大学,2016.

剩余内容已隐藏,您需要先支付 1元 才能查看该篇文章全部内容!立即支付

以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。