智能语音处理

作　者：	张雄伟孙蒙杨吉斌
出版社：	机械工业出版社
丛编项：	智能科学与技术丛书
版权说明：	本书为出版图书，暂不支持在线阅读，请支持正版图书
标　签：	暂缺

ISBN	出版时间	包装	开本	页数	字数
未知	暂无	暂无	未知	0	暂无

作者简介

　　本书编写组主　编　张雄伟　孙　蒙　杨吉斌副主编　曹铁勇　郑昌艳　吴海佳参　编　曾　理　韩　伟　陈栩杉闵　刚　孙　健　孙新建周　彬　黄建军　苗晓孔李嘉康　张星昱

内容简介

本书系统性地阐述智能语音处理技术，并重点以机器学习等技术及其在语音处理中的典型应用，理论与实践联系紧密。

图书目录

前言

第1章　智能语音处理导论1

　11　概述1

　12　经典语音处理2

　　　121　语音处理的发展2

　　　122　语音基本表示方法3

　　　123　语音处理基本方法3

　　　124　经典语音处理方法的不足4

　13　智能语音处理5

　　　131　智能语音处理的基本概念5

　　　132　智能语音处理的基本框架5

　　　133　智能语音处理的基本模型6

　14　语音处理的应用7

　　　141　语音处理的传统应用领域8

　　　142　语音处理的新应用领域11

　15　小结14

　参考文献14

第2章　稀疏和压缩感知15

　21　引言15

　22　稀疏和稀疏表示16

　　　221　稀疏16

　　　222　稀疏表示18

　23　冗余字典19

　　　231　基本概念19

　　　232　字典学习20

　　　233　字典学习算法22

　　　234　原子选择算法25

　24　压缩感知27

　　　241　基本概念27

　　　242　压缩感知模型29

　　　243　观测矩阵30

　　　244　信号重构32

　25　小结33

　参考文献33

第3章　隐变量模型36

　31　引言36

　32　高斯混合模型36

　　　321　基本概念37

　　　322　GMM参数估计37

　33　隐马尔可夫模型39

　　　331　基本概念39

　　　332　HMM关键问题42

　34　高斯过程隐变量模型48

　　　341　基本模型48

　　　342　GPLVM的理论来源49

　　　343　GPLVM模型训练50

　35　小结51

　参考文献51

第4章　组合模型52

　41　引言52

　42　主成分分析53

　　　421　基本模型53

　　　422　求解算法54

　43　非负矩阵分解56

　　　431　基本模型56

　　　432　求解算法57

　　　433　NMF与其他数据表示模型的关系58

　44　鲁棒组合模型60

　　　441　组合模型的鲁棒性分析61

　　　442　鲁棒主成分分析61

　　　443　鲁棒非负矩阵分解63

　45　小结64

　参考文献64

第5章　人工神经网络和深度学习65

　51　引言65

　52　神经网络基础66

　　　521　神经元模型66

　　　522　浅层神经网络67

　　　523　深度神经网络68

　53　深度学习69

　　　531　基本概念和形式69

　　　532　深度网络的学习方法70

　54　深度神经网络的典型结构71

　　　541　深度置信网络71

　　　542　自动编码器与栈式自动编码器72

　　　543　卷积神经网络74

　　　544　循环神经网络75

　　　545　生成式对抗网络77

　55　小结79

　参考文献79

第6章　语音压缩编码81

　61　引言81

　62　基于字典学习的语音信号压缩感知82

　　　621　语音信号的稀疏性82

　　　622　语音在常见变换域的稀疏化83

　　　623　基于K-L展开的语音非相干字典84

　　　624　基于K-L非相干字典的语音压缩重构87

　　　625　实验仿真与性能分析88

　63　基于梅尔倒谱系数重构的语音压缩编码93

　　　631　基于梅尔倒谱分析的抗噪语音编码模型94

　　　632　基于稀疏约束的梅尔倒谱合成96

　　　633　梅尔倒谱系数的量化算法99

　　　634　实验仿真与性能分析103

　64　基于深度学习的语音压缩编码107

　　　641　基于DAE的幅度谱编码和量化107

　　　642　基于DAE的低速率语音编码110

　　　643　实验仿真与性能分析111

　65　小结113

　参考文献113

第7章　语音增强115

　71　引言115

　72　语音增强技术基础116

　　　721　语音增强的估计参数116

　　　722　智能语音增强的语音特征117

　　　723　性能评价118

　73　基于非负矩阵分解的语音增强120

　　　731　基本模型121

　　　732　基于不相交约束非负矩阵分解的语音增强122

　　　733　基于CNMF字典学习的语音增强127

　74　基于深度学习的语音增强136

　　　741　基于听觉感知加权的深度神经网络语音增强方法136

　　　742　基于听觉感知掩蔽的深度神经网络语音增强方法141

　75　小结151

　参考文献152

第8章　语音转换155

　81　引言155

　82　语音转换基本原理155

　83　语音转换模型与评价156

　　　831　语音分析/合成模型156

　　　832　语音参数的选择157

　　　833　时间对齐157

　　　834　转换模型和规则158

　　　835　转换性能评价159

　84　基于非负矩阵分解的谱转换160

　　　841　概述160

　　　842　基于卷积非负矩阵分解的谱转换161

　　　843　声道谱转换效果164

　85　基于深度神经网络的谱转换168

　　　851　深度学习驱动下的语音转换168

　　　852　面向谱转换的神经网络模型选择168

　　　853　基于BLSTM和神经网络声码器交替训练的语音转换171

　86　小结176

　参考文献176

第9章　说话人识别178

　91　引言178

　92　说话人识别基础179

　　　921　说话人识别系统框架179

　　　922　典型的说话人识别模型180

　93　基于i-vector的说话人识别及其改进181

　　　931　基于i-vector的说话人识别概述181

　　　932　用于提高i-vector鲁棒性的帧加权方法182

　　　933　实验结果与分析187

　94　基于深度神经网络的说话人识别187

　　　941　基于深度神经网络的说话人识别概述187

　　　942　基于对比度损失函数优化说话人矢量189

　　　943　实验结果与分析191

　95　说话人识别系统的攻击与防御192

　　　951　攻击和防御的背景192

　　　952　说话人识别系统的攻击方法192

　　　953　说话人识别攻击的检测方法194

　　　954　实验结果与分析196

　96　小结196

　参考文献197

第10章　骨导语音增强200

　101　引言200

　102　骨导语音增强基础201

　　　　1021　骨导语音的产生与特性201

　　　　1022　骨导语音盲增强的特点202

　　　　1023　骨导语音盲增强的典型方法203

　103　基于长短时记忆网络的骨导语音盲增强205

　　　　1031　骨导/气导语音的谱映射206

　　　　1032　基于深度残差BLSTM的骨导语音盲增强方法207

　　　　1033　实验仿真及性能分析211

　104　基于均衡-生成组合谱映射的骨导语音盲增强215

　　　　1041　均衡法215

　　　　1042　基于均衡-生成组合谱映射的骨导语音盲增强方法216

　　　　1043　实验仿真及性能分析218

　105　小结222

　参考文献223

第11章　智能语音处理展望224

　111　智能语音处理的未来224

　112　有待解决的关键技术225

　　　　1121　语音识别226

　　　　1122　语音合成228

　　　　1123　语音增强229

　　　　1124　语音处理中的安全问题230

　113　小结230

　参考文献230

缩略语232