文本挖掘与Python实践

文本挖掘与Python实践
作 者: 刘金花
出版社: 四川大学出版社
丛编项:
版权说明: 本书为出版图书,暂不支持在线阅读,请支持正版图书
标 签: 暂缺
ISBN 出版时间 包装 开本 页数 字数
未知 暂无 暂无 未知 0 暂无

作者简介

  刘金花,1987年生,硕士,山西医科大学汾阳学院讲师。主要研究方向为机器学习、数据挖掘。

内容简介

本书从文本数据具有的特点以及文本挖掘具有的价值和意义开始,讲解了文本数据的获取和预处理的方法(包括中英文的文本预处理),给出了文本向量化表示方法。本书从统计机器学习方法和深度神经网络两个角度,介绍了包括向量空间模型以及词、句子和文档级的分布式表示;针对文本分类问题,介绍了传统文本分类方法、深度神经网络分类方法(多层感知机文本分类、卷积神经网络文本分类和循环神经网络文本分类)和文本分类的评价指标;针对文本聚类,包括文档相似度度量方法,介绍了基于划分、层次、密度的基础性聚类算法,以及谱聚类等高级聚类方法和文本聚类的评价指标;在理论学习的基础上,介绍了文本主题的挖掘技术,包括潜在语义分析、非负矩阵分解、概率潜在语义分析和潜在狄利克雷分布等;最后从文本内容、主题和基于时间信息三个方面介绍了文本数据可视化的方法与工具。本书不仅对文本挖掘的相关理论模型进行了详细的推理和全面介绍,而且在每个算法模型之后都会给出实例,在理论与实践之间做了很好的平衡与衔接。

图书目录

1 概述

1.1 文本数据

1.2 文本挖掘与分析

1.3 小结

2 数据获取及预处理

2.1 数据获取

2.2 数据清洗

2.3 数据预处理

2.4 N元语法模型

2.5 小结

3 文本向量化

3.1 向量空间模型

3.2 分布文本表示模型

3.3 句子向量化

3.4 文档向量化

3.5 小结

4 文本分类

4.1 文本分类基础

4.2 传统文本分类算法

4.3 深度神经网络方法

4.4 文本分类评价

4.5 小结

5 文本聚类

5.1 文本聚类基础

5.2 基于划分的聚类

5.3 基于层次的聚类

5.4 基于密度的聚类

5.5 谱聚类

5.6 文本聚类评价

5.7 小结

6 主题模型

6.1 潜在语义分析

6.2 非负矩阵分解(NMF)

6.3 概率潜在语义分析(PLSA)

6.4 潜在狄利克雷分布(LDA)

6.5 小结

7 文本数据可视化

7.1 文本内容可视化

7.2 文本主题可视化

7.3 基于时间信息的数据可视化

7.4 小结

参考文献