自然语言处理技术与应用

作　者：	许桂秋柳贵东朵云峰
出版社：	人民邮电出版社
丛编项：
版权说明：	本书为出版图书，暂不支持在线阅读，请支持正版图书
标　签：	暂缺

ISBN	出版时间	包装	开本	页数	字数
未知	暂无	暂无	未知	0	暂无

作者简介

　　许桂秋《大数据导论》《Python编程基础与应用》《NoSQL数据库原理与应用》《数据挖掘与机器学习》等9本系列教材，浙江科技出版社，2019年。

内容简介

本书基于Python编程语言，以实战为导向，主要介绍中文自然语言处理的各种理论、方法及应用案例，帮助读者快速熟悉理论知识，理解相关技术原理，为读者选择自然语言处理相关的研究方向或从业领域提供参考。全书共分为三个部分：部分（～3章）是“基础篇”，侧重介绍自然语言处理的基础知识，并在相应的知识板块中设置实验案例；第二部分（第4～12章）是“技术篇”，主要讲解自然语言处理核心技术的原理及实现方法，以及文本分类、特征提取、RNN等技术在自然语言处理中的应用；第三部分（ 3章）是“应用篇”，主要介绍自然语言处理比较典型的应用场景。本书适合作为人工智能相关课程的教材，也可作为人工智能的普及读物供广大读者自学或参考。

图书目录

第 1章自然语言处理初探 1

1.1 什么是自然语言处理 2

1.1.1 自然语言处理的概念 2

1.1.2 自然语言处理的研究任务 3

1.2 自然语言处理的发展历程 5

1.3 自然语言处理相关知识的构成 7

1.3.1 基础术语 7

1.3.2 知识结构 8

1.4 探讨自然语言处理的层面 9

1.5 自然语言处理与人工智能 10

1.5.1 智慧医疗 11

1.5.2 智慧司法. 11

1.5.3 智慧金融 11

1.6 本章小结 12

第 2章使用Python进行自然语言基础处理 13

2.1 正则表达式在自然语言处理中的基本应用 14

2.1.1 匹配字符串 14

2.1.2 使用转义符 17

2.1.3 抽取文本中的数字 18

2.2 NumPy使用详解 13.2 19

2.2.1 创建数组 19

2.2.2 获取NumPy中数组的维度 20

2.2.3 获取本地数据 21

2.2.4 正确读取数据 22

2.2.5 数组索引 22

2.2.6 数组切片 23

2.2.7 数组比较 23

2.2.8 替代值 24

2.2.9 数据类型转换 25

2.2.10 NumPy的统计计算方法 25

2.3 本章小结 26

第3章使用NLTK获取和构建语料库 27

3.1 语料库基础 28

3.2 NLTK 29

3.2.1 NLTK简介 29

3.2.2 安装NLTK 30

3.2.3 使用NLTK 31

3.2.4 在Python NLTK下使用Stanford NLP 36

3.3 获取语料库 40

3.3.1 通过语料库网站获取语料库 40

3.3.2 通过编写程序获取语料库 41

3.3.3 通过NLTK获取语料库 42

3.4 综合案例：走进《红楼梦》 44

3.4.1 数据采集和预处理 44

3.4.2 构建本地语料库 45

3.4.3 语料操作 45

3.5 本章小结 48

第4章 jieba中文分词 49

4.1 中文分词简介 50

4.2 规则分词 50

4.2.1 正向匹配法 51

4.2.2 逆向匹配法 52

4.2.3 双向匹配法 54

4.3 统计分词 57

4.3.1 统计语言模型 57

4.3.2 HMM 58

4.3.3 其他统计分词算法 65

4.4 混合分词 65

4.5 Jieba高频词提取 66

4.5.1 jieba的3种分词模式 66

4.5.2 实战之高频词提取 66

4.6 本章小结 69

第5章 jieba词性标注 71

5.1 词性标注简介 72

5.2 词性标注规范 72

5.3 jieba分词中的词性标注 74

5.4 本章小结 75

第6章命名实体识别之日期识别和地名识别 77

6.1 命名实体识别简介 78

6.2 基于CRF的命名实体识别 79

6.3 命名实体识别之日期识别 82

6.4 命名实体识别之地名识别 86

6.4.1 安装CRF++ 86

6.4.2 确定标签体系 87

6.4.3 语料数据处理 88

6.4.4 特征模板设计 90

6.4.5 模型训练和测试 91

6.4.6 模型使用 93

6.5 本章小结 94

第7章提取文本关键词 95

7.1 关键词提取算法 96

7.2 TF-IDF算法 96

7.3 TextRank算法 97

7.4 LSA/LSI/LDA算法 99

7.4.1 LSA/LSI算法 99

7.4.2 LDA算法 100

7.5 提取文本关键词 101

7.6 本章小结 108

第8章词向量算法 109

8.1 word2vec词向量算法 110

8.1.1 神经网络语言模型 110

8.1.2 C&W模型 112

8.1.3 CBOW模型和Skip-gram模型 113

8.2 doc2vec/str2vec文本向量化算法 114

8.3 将网页文本向量化 116

8.3.1 词向量的训练 116

8.3.2 段落向量的训练 119

8.3.3 利用word2vec词向量算法和doc2vec文本向量化算法计算网页相似度 120

8.4 本章小结 124

第9章句法分析 125

9.1 句法分析概述 126

9.1.1 句法分析的基本概念 126

9.1.2 句法分析的基本方法 126

9.2 句法分析的数据集与评测方法 127

9.2.1 句法分析的数据集 127

9.2.2 句法分析的评测方法 129

9.3 句法分析的常用方法 130

9.3.1 基于PCFG的句法分析 130

9.3.2 基于间隔马尔可夫网络的句法分析 131

9.3.3 基于CRF的句法分析 132

9.3.4 基于移进-归约的句法分析 132

9.4 使用Standford Parser的PCFG进行句法分析 134

9.4.1 Stanford Parser 134

9.4.2 基于PCFG的中文句法分析实战 135

9.5 本章小结 136

第 10章情感分析 137

10.1 情感分析的应用 138

10.2 情感分析的基本方法 139

10.2.1 词法分析 139

10.2.2 机器学习 140

10.2.3 混合分析 140

10.3 电影评论情感分析 141

10.3.1 模型选择 141

10.3.2 载入数据 144

10.3.3 辅助函数 146

10.3.4 模型设置 147

10.3.5 调参配置 148

10.3.6 训练过程 149

10.4 本章小结 149

第 11章机器学习在自然语言处理的应用 151

11.1 几种常用的机器学习方法 152

11.1.1 文本分类 152

11.1.2 特征提取 152

11.1.3 标注 153

11.1.4 搜索与排序 154

11.1.5 系统 155

11.1.6 序列学习 156

11.2 无监督学习的文本聚类 156

11.3 文本分类实战-中文垃圾邮件分类 158

11.4 文本聚类实战——用K均值聚类对豆瓣读书数据聚类 164

11.5 本章小结 168

第 12章深度学习在自然语言中的应用 169

12.1 RNN简介 170

12.1.1 简单RNN 170

12.1.2 LSTM 172

12.1.3 Attention机制 174

12.2 Seq2Seq问答机器人 175

12.2.1 Seq2Seq模型 175

12.2.2 实战Seq2Seq聊天机器人 176

12.3 本章小结 184

第 13章自然语言处理典型的应用场景 185

13.1 机器翻译与写作 186

13.1.1 机器翻译 186

13.1.2 机器写作 195

13.2 智能问答与对话 204

13.2.1 智能问答 204

13.2.2 智能对话系统 204

13.2.3 问答系统的主要组成 206

13.2.4 不同类型的问答系统 207

13.2.5 前景与挑战 218

13.3 个性化推荐 218

13.3.1 系统的概念 218

13.3.2 个性化推荐的基本问题 219

13.3.3 的可解释性 222

13.3.4 前景与挑战 223

13.4 本章小结 226