基于深度学习的文本命名实体识别方法开题报告

 2023-02-08 09:35:31

1. 研究目的与意义

随着时代的发展,互联网技术的进步,用户人数的激增,网络信息迅速增长,其形式也是越来越多样化,包括视频、音频、图片以及文档等等内容。网络信息的多样化给广大用户有效利用网络信息带来了诸多不便,因此需要有有效的信息抽取方法为用户快速地识别、抽取有效信息,进行下一步的生产研究和应用。当今用户虽然可以利用网络对一些文本类型的内容进行简单的信息搜索,但是由于数据结构的庞大以及无序,很难通过传统的搜索手段提取到关键有效的信息。信息抽取一种利用多种技术手段将非结构化的文本转化为结构化的文本的一种信息提取技术,主要包括了命名实体识别和关系的抽取。

信息抽取技术是随着互联网技术的发展而发展起来的,在当今社会的各个领域有着广泛的应用和重要的地位。特别是进入信息时代以来,在农业、卫生部门和服务业等产业起到了关键作用。例如,农民从农业书籍中了解到作物的农作物的习性、农药的剂量和使用等;医生从医疗系统中了解到某种疾病的发病症状,治疗方法和预防措施等;酒店管理人员从用户评价中了解到酒店的服务漏洞,客户的服务需求等。以上这些信息抽取如果单纯依靠传统的信息搜索会消耗大量的人力物力,还会带来工作量庞大、耗时长和错误率高等缺点。因此高效的信息抽取技术应运而生。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

1.研究内容

(1)基于BiLSTM CRF模型的文本信息和实体关系抽取方法

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状

国内研究现状

命名实体识别这一概念最早是在1996年的MTU-6会议中被提出的,目的是提取出文本信息中具有特定意义的实体。在之后的MTU-7会议上,命名实体被详细地划分为七类:人民、机构名、地名、时间、日期、数值、金额。随着时间的推移以及各项科学技术的发展,根据每项数据分析任务的需求,很多名词的划分越来越细致了。文本命名实体识别的本质就是根据属性对每一个实体进行标注,在标注之前我们需要做的就是将命名实体的属性界限进行划分。例如对于会议信息文本,可以根据时间、地点、人名来划分界限,例如商品价格统计,可以根据商品名、金额来划分界限等。对于较为特殊的文本,例如医药命名实体识别,渔业命名实体识别等,我们在进行标注时,需要根据具体情况具体划分属性界限。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 计划与进度安排

1、2022年12月至2022年1月,拟订提纲。通过学校图书馆书籍、电子网络、杂志以及硕博论文收集相关资料,在学习所有与论题相关知识点的基础上,总结并提炼出提纲,填写开题报告。

2、2022年1月至3月,完成初稿。进一步收集相关资料,按照前期拟订出的提纲,充实论文的内容,并对其加以具体分析论证,完成论文初稿。

3、2022年3月至4月,反复修改初稿。仔细阅读初稿,对其不足之处以及语句不通顺之处进行修改,并查阅近期文献充实论文。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 参考文献

[1]杨锦锋, 关毅, 何彬等. 中文电子病历命名实体和实体关系语料库构建#8727;[J]. 软件学报, 2016, 第27卷(11):2725-2746.

[2]杨锦锋,于秋滨,关毅,蒋志鹏.电子病历命名实体识别和实体关系抽取研究综述[J].自动化学报,2014,40(08):1537-1562.

剩余内容已隐藏,您需要先支付 1元 才能查看该篇文章全部内容!立即支付

以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。