文本挖掘与Python实践

作　者：	刘金花
出版社：	四川大学出版社
丛编项：
版权说明：	本书为出版图书，暂不支持在线阅读，请支持正版图书
标　签：	暂缺

ISBN	出版时间	包装	开本	页数	字数
未知	暂无	暂无	未知	0	暂无

作者简介

　　刘金花，1987年生，硕士，山西医科大学汾阳学院讲师。主要研究方向为机器学习、数据挖掘。

内容简介

本书从文本数据具有的特点以及文本挖掘具有的价值和意义开始，讲解了文本数据的获取和预处理的方法（包括中英文的文本预处理），给出了文本向量化表示方法。本书从统计机器学习方法和深度神经网络两个角度，介绍了包括向量空间模型以及词、句子和文档级的分布式表示；针对文本分类问题，介绍了传统文本分类方法、深度神经网络分类方法（多层感知机文本分类、卷积神经网络文本分类和循环神经网络文本分类）和文本分类的评价指标；针对文本聚类，包括文档相似度度量方法，介绍了基于划分、层次、密度的基础性聚类算法，以及谱聚类等高级聚类方法和文本聚类的评价指标；在理论学习的基础上，介绍了文本主题的挖掘技术，包括潜在语义分析、非负矩阵分解、概率潜在语义分析和潜在狄利克雷分布等；最后从文本内容、主题和基于时间信息三个方面介绍了文本数据可视化的方法与工具。本书不仅对文本挖掘的相关理论模型进行了详细的推理和全面介绍，而且在每个算法模型之后都会给出实例，在理论与实践之间做了很好的平衡与衔接。

图书目录

1 概述

1.1 文本数据

1.2 文本挖掘与分析

1.3 小结

2 数据获取及预处理

2.1 数据获取

2.2 数据清洗

2.3 数据预处理

2.4 N元语法模型

2.5 小结

3 文本向量化

3.1 向量空间模型

3.2 分布文本表示模型

3.3 句子向量化

3.4 文档向量化

3.5 小结

4 文本分类

4.1 文本分类基础

4.2 传统文本分类算法

4.3 深度神经网络方法

4.4 文本分类评价

4.5 小结

5 文本聚类

5.1 文本聚类基础

5.2 基于划分的聚类

5.3 基于层次的聚类

5.4 基于密度的聚类

5.5 谱聚类

5.6 文本聚类评价

5.7 小结

6 主题模型

6.1 潜在语义分析

6.2 非负矩阵分解(NMF)

6.3 概率潜在语义分析(PLSA)

6.4 潜在狄利克雷分布(LDA)

6.5 小结

7 文本数据可视化

7.1 文本内容可视化

7.2 文本主题可视化

7.3 基于时间信息的数据可视化

7.4 小结

参考文献