基于人工神经网络模型的说话人情绪识别方法的研究开题报告

 2023-08-08 07:22:28

1. 研究目的与意义

毕业设计我选的是基于人工神经网络模型的说话人情绪识别方法的研究。

说话人情绪识别作为智能语音信号处理的核心技术,其算法处于信号处理的前端,能够让人识别出当前的听觉场景,自适应地调用相应的处理程序,实现针对不同场景声信号的个性化处理。

本质上讲,说话人情绪识别属于环境声识别问题,主要包括两个方面:特征提取和分类。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 课题关键问题和重难点

1.数据的采集(大量的不同情景的语音数据需求,语音库的建立,情感特征的分析)2.VAD(开始语音识别之前。

,需要把首尾端的静音切除,降低对后续步骤造成的干扰)3.声学特征提取(根据人耳的生理特性,把每一帧波形变成一个多维向量,理解为这个向量包含了这帧语音的内容信息。

波形在时域上几乎没有描述能力,因此必须将波形作变换,常见的一种变换方法是提取MFCC特征)4.把帧识别成状态(有个叫声学模型的东西,里面存了一大堆参数,通过这些参数,就可以知道帧和状态对应的概率。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状(文献综述)

1.特征提取MFCC的中文全称是梅尔频率倒谱系数,这种语音特征提取算法是这几十年来,最常用的算法之一。

这种算法是通过在声音频率中,对非线性梅尔刻度的对数能量频谱,进行线性变换得到的[1]。

MFCC特征提取算法的主体流程如下:2.人工神经网络原理神经网络模型如图4-1所示,其是由大量处理单元互连的形成的网络。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究方案

BP算法的训练步骤包括如下6点:(1)初始化所有强度向量和阈值为随机非零数;(2)使用学习样本训练BP网络,目标输出是,输入向量是;(3)在结果在显示隐层以及输出隐层的数目。

(4)然后在用公式求出步骤三中两个参数的误差值: 其中j表示第k个神经元上第j个节点,表示每个输出节点的理想输出数据(用二进制来表示)。

(5)更新阈值和权值:是一个常数,表示以前的权值或阈值对现在的参数的影响;是训练速度,在系统不发生震荡时越大越好; (6)当误差小于我们之前所设定的预计误差值时,程序停止工作。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 工作计划

第一周:查找文献资料,对说话人情绪辨识技术有个大体的了解;第二周:对课题中涉及的知识作深入掌握,掌握参数分析方法、ANN方法和说话人情绪辨识技术方法等;第三周:制定研究计划,写开题报告;第四周:学习程序语言以及编程方法;第五周:练习编程;第六周:实现参数分析方法软件部分;第七周:实现ANN方法软件部分;第八周:实现说话人情绪辨识技术方法软件部分;第九周:实现系统软件联调的主要功能;第十周:实现软件的可视化界面;第十一周:程序修改和完善,结果分析;第十二周:写论文以及准备答辩;第十三周:写论文以及准备答辩;第十四周:验收程序,进行毕业设计答辩;其中基于深度神经网络模型的训练代码、测试代码我会重点学习,争取看懂学会上手。

在下半学期中,我将按时填写周计划来保证实验有序积极的进展。

剩余内容已隐藏,您需要先支付 1元 才能查看该篇文章全部内容!立即支付

以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。