1. 研究目的与意义
篇章结构包括逻辑语义结构、指代结构、话题结构等范畴。逻辑语义结构表征并列、转折、因果等逻辑语义关系。指代结构是代词、名词、名词短语、零形式相互之间的共指关系。话题结构有宏观与微观两种。宏观话题结构表征的是篇章各部分讲述内容的大纲,微观话题结构是近邻语句对同一个词语的意思展开说明而形成的结构。捋清微观话题结构是处理宏观话题结构、指代结构、逻辑语义结构的基础。广义话题结构就是汉语篇章的微观话题结构的描写。
广义话题结构的研究的远期目标是让计算机对任何正常的现代汉语篇章的微观话题结构进行自动处理,进而解决各种实际应用问题。第一步首先要做到对于人可操作。所谓对人的可操作性可以这样衡量:制定出操作规范,稍有语言学修养的人经过训练,在较大规模语料库上进行标注操作,操作结果对于不同的人来说在可控范围内大致上是一致的。广义话题结构的研究对汉语篇章语法研究和中文信息处理都有重要意义。
最早的自然语言理解方面的研究工作是机器翻译。1949年,美国人威弗首先提出了机器翻译设计方案。20世纪60年代,国外对机器翻译曾有大规模的研究工作,耗费了巨额费用,但人们当时显然是低估了自然语言的复杂性,语言处理的理论和技术均不成热,所以进展不大。主要的做法是存储两种语言的单词、短语对应译法的大辞典,翻译时一一对应,技术上只是调整语言的同条顺序。但日常生活中语言的翻译远不是如此简单,很多时候还要参考某句话前后的意思。
2. 研究内容与预期目标
篇章的话题是篇章意图的外在形式体现,是篇章理解的基础。如何利用计算理论自动实现篇章话题结构的抽取识别,一直是篇章理解的重要研究内容。本课题在前期构建篇章话题结构形式化定义的基础上,将话题结构自动分析问题转换成序列化标注问题,利用机器学习方法,研究并实现一个话题结构自动分析器。
具体任务:
基于篇章话题微观话题形式化表示结构,利用机器学习相关技术,研究并实现一个篇章话题结构自动分析器。
3. 研究方法与步骤
根据市场上已有的关于同类型研究学术进行调研分析,确定篇章话题结构自动分析器的数据模型,以Java语言为基础,进行编程,最终完成篇章话题结构自动分析器的开发。课题按照“现状分析——gt;理论研究——gt;模型设计——gt;系统设计实现”的方法展开研究。
(1) 调研篇章话题结构自动分析器相关内容,建立数据模型;
(2) 熟悉Java程序设计语言,利用Java语言开发篇章话题结构自动分析器;
4. 参考文献
[1] 储琢佳. 篇章分析中的逗号分类与识别研究[J]. 赤峰学院学报(哲学社会科学版), 2016, 37(3):225-226.
[2] 涂眉. 基于篇章分析的统计机器翻译方法研究[D]. 中国科学院大学, 2015.
[3] 涂眉, 涂眉. 基于篇章分析的统计机器翻译方法研究[J]. 2015.
5. 工作计划
(1) 1月11日至2月15日 分析课题,查找资料。
(2) 2月16日至2月28日 完成需求分析。
(3) 3月01日至3月16日 完成开题报告。
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。