1. 研究目的与意义
文本分类是许多应用程序中必不可少的组成部分,如网络搜索、信息过滤和情绪分析,因此,它引起了许多研究者的关注。
文本分类中的一个关键问题是特征表示,然而,传统的特征表示方法往往忽略了文本中的上下文信息或语序,不能很好地捕捉词的语义。
例如,在句子中,“A sunset stroll along theSouth Bank affords an array of stunning vantage points”当我们分析单词“Bank”时,我们可能不知道它的意思是金融机构还是河边的土地。
2. 研究内容和预期目标
研究的内容:循环卷积神经网络(RCNN),并将其应用到文本分类的任务中。首先,应用双向递归结构,与传统的基于窗口的神经网络相比,它可以引入较少的噪声,以便在学习单词表示时最大限度地捕获上下文信息。此外,该模型在学习文本表征时可以保留更大范围的词序。其次,使用一个最大池化层自动判断哪些特征在文本分类中起关键作用,以捕获文本中的关键成分。通过结合递归结构和最大池化层,模型利用了递归神经模型和卷积神经模型的优点。
拟解决的问题: 偏差问题以及是否可以比传统的基于窗口的神经网络学习更多的上下文信息,并更精确地表示文本的语义,以便进行文本分类。
提纲:
3. 国内外研究现状
许多NLP方法将单词视为基本单位。一个重要的步骤是引入了单词的连续表示。这些单词嵌入现在是最先进的NLP。然而,我们如何最好地表示一个词的序列,例如,有复杂的句法和语义关系的整个句子,就不那么清楚了。一般来说,在同一句话中,我们可能会面临局部依赖和长期依赖。目前,主流的方法是将一个句子看作一个符号(字符或单词)序列,然后使用递归神经网络(RNN)对其进行处理。标记通常按照从左到右的顺序处理,RNN期望“记住”整个序列的内部状态。最流行和最成功的RNN变体当然是LSTMs。
近年来,预训练词嵌入和深度神经网络的快速发展给各种神经语言处理任务带来了新的启发。单词嵌入是单词的分布式表示,极大地缓解了数据稀疏性问题。Mikolov、Yih和Zweig表明,预先训练的词嵌入可以捕捉有意义的句法和语义规律。在单词嵌入的帮助下,提出了一些基于组合的方法来捕获文本的语义表示。
Socher等人提出了递归神经网络(RecursiveNN),已被证明在构建句子表示方面是有效的。然而,递归通过树结构捕获句子的语义。它的性能在很大程度上取决于文本树结构的性能。此外,构建这样一个文本树的时间复杂度至少为O(n2),其中n为文本的长度。当模型遇到一个长句子或一个文档时,这将非常耗时。此外,两个句子之间的关系很难用树形结构来表示。因此,递归不适合建模长句子或文档。4. 计划与进度安排
研究计划:
1.通过对比研究目前已有的研究成果找到合适的模型。
2.通过具体的数据实验调整完善研究方法
5. 参考文献
[1].孙璇. 基于卷积神经网络的文本分类方法研究[D]. 2018.
[2].Barchi Francesco, Parisi Emanuele, Urgese Gianvito,et al. Exploration of Convolutional Neural Network models for source codeclassification. 2021, 97
[3].Aspect-basedSentiment Classification with Aspect-specific Graph Convolutional Networks. ChenZhang, Qiuchi Li and Dawei Song. EMNLP 2019
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。