1. 研究目的与意义
声音是我们感知外界的一种重要方式,它能给我们提供多种多样的信息。
声音事件识别作为智能语音信号处理的核心技术,其算法处于信号处理的前端,能够让人识别出当前的听觉场景,自适应地调用相应的处理程序,实现针对不同场景声信号的个性化处理。
本质上讲,说话人情绪识别属于环境声识别问题,主要包括两个方面:特征提取和分类。
2. 课题关键问题和重难点
课题关键问题及难点是:声纹数据的分类及前期特征提取, 基于模糊矢量量化模型的声纹检测。
方案如下:① 声纹数据的分类及前期特征提取。
声纹相关语料的收集;声纹相关语料的分类;声纹相关语料的标注;根据标注语料对声纹语料进行语音激活检测;对语料进行预加重、分帧及加窗处理;将每一帧数据进行相关特征提取;提取每一帧的能量作为特征参数;对数据进行特征选取;对相关特征进行组合。
3. 国内外研究现状(文献综述)
说话人识别和语音识别的区别在于,它不注重包含在语音信号中的文字符号以及语义内容信息,而是着眼于包含在语音信号中的个人特征,提取说话人的这些个人信息特征,以达到识别说话人的目的。
说话人识别方法的基本原理与语音识别相同,也是根据从语音中提取的不同特征,通过判断逻辑来判定该语句的归属类别。
但它也具有其特点:①语音按说话人划分,因而特征空间的界限也应按说话人划分;②应选用对说话人区分度大,而对语音内容不敏感的特征参量;③由于说话人识别的目的是识别出说话人而不是所发的语音内容,故采取的方法也有所不同,包括用以比较的帧和帧长的选定,识别逻辑的制定等。
4. 研究方案
1.声纹识别系统根据前人的研究,我们可以知道,要进行声音识别,得先对声音信号进行处理分类,然后提取关键参数,最后用我们自己的方法根据参数识别其他的声音信号,一个完整的声音事件识别的方式便可以确定下来。
图二 声音事件识别系统(1)预处理模块:预处理模块主要是为后续的信号处理做准备,同时预处理模块对所有输入信号分别进行相应的初步处理,预处理的内容主要包括端点检测、时间规整、预加重、分帧、加窗。
(2)特征提取模块:反映声音信号的特征参数。
5. 工作计划
2022-2022-1学期:第15-16周:完成选题,查找相关文献资料,对基于模糊矢量量化(FVQ)模型算法的声纹识别技术有个大体的了解;第17周:与导师沟通进行课题总体规划;第18周:导师下发毕业设计(论文)任务书,学生根据导师的要求进行外文翻译,列出开题报告大纲;第19周:搭建开发环境,撰写开题报告;2022-2022-2学期:第1-2周:进行课题的需求分析,提交开题报告;第3-4周:实现参数分析方法软件部分;第5-6周:实现基于模糊矢量量化(FVQ)模型法的声纹识别软件部分;第7-8周:实现系统软件联调的主要功能;提交毕业设计论文提纲给指导老师审阅;第9-11周:实现软件的可视化界面;完成毕业论文初稿;第12周:在教师的指导下对撰写的论文进行修改,提交论文终稿及合格的论文检测报告、毕业设计(论文)资料装袋;第13-14周:筹备毕业答辩相关事宜,制作参加毕业答辩的演示课件;参加毕业答辩,并提交全部文档和成果材料。
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。