机器学习实践:数据科学应用与工作流的开发及优化

机器学习实践:数据科学应用与工作流的开发及优化
作 者: 安德鲁·凯莱赫 亚当·凯莱赫 陈子墨 刘瀚文
出版社: 机械工业出版社
丛编项: 数据科学与工程技术丛书
版权说明: 本书为出版图书,暂不支持在线阅读,请支持正版图书
标 签: 暂缺
ISBN 出版时间 包装 开本 页数 字数
未知 暂无 暂无 未知 0 暂无

作者简介

暂缺《机器学习实践:数据科学应用与工作流的开发及优化》作者简介

内容简介

本书以作者在BuzzFeed的工作经验为基础,将机器学习和计算机工程巧妙地结合在一起。第壹部分的基本原则是数据科学世界坚实的基础;第二部分介绍现实问题中的常用算法,帮助读者迅速解决实际问题,避免被数据误导、产生结论错误;第三部分则着眼于工程实践,基于工程角度突破瓶颈,让算法能够在现实条件中得以实现。

图书目录

译者序

前言

作者简介

第一部分 框架原则

第1章 数据科学家的定位 2

1.1 引言 2

1.2 数据科学家扮演的角色 2

1.2.1 公司规模 3

1.2.2 团队背景 3

1.2.3 职业晋升和发展 4

1.2.4 重要性 5

1.2.5 工作细分 5

1.3 结论 5

第2章 项目流程 7

2.1 引言 7

2.2 数据团队背景 7

2.2.1 专门岗位与资源池 8

2.2.2 研究分析 8

2.2.3 原型设计 9

2.2.4 集成的工作流 10

2.3 敏捷开发与产品定位 10

2.4 结论 15

第3章 量化误差 16

3.1 引言 16

3.2 量化测量值的误差 16

3.3 抽样误差 18

3.4 误差传递 20

3.5 结论 22

第4章 数据编码与预处理 23

4.1 引言 23

4.2 简单文本预处理 24

4.2.1 分词 24

4.2.2 n元模型 26

4.2.3 稀疏 26

4.2.4 特征选择 27

4.2.5 表示学习 29

4.3 信息量损失 31

4.4 结论 33

第5章 假设检验 34

5.1 引言 34

5.2 什么是假设 34

5.3 假设检验的错误类型 36

5.4 p值和置信区间 37

5.5 多重测试和p值操控 38

5.6 实例 39

5.7 假设检验的设计 40

5.8 结论 41

第6章 数据可视化 43

6.1 引言 43

6.2 数据分布和汇总统计 43

6.2.1 数据分布和直方图 44

6.2.2 散点图和热力图 48

6.2.3 箱线图和误差条 52

6.3 时间序列图 54

6.3.1 移动统计 54

6.3.2 自相关 56

6.4 图可视化 57

6.4.1 布局算法 57

6.4.2 时间复杂度 59

6.5 结论 60

第二部分 算法与架构

第7章 算法和架构简介 62

7.1 引言 62

7.2 架构 64

7.2.1 服务 64

7.2.2 数据源 65

7.2.3 分批及在线计算 66

7.2.4 规模扩展 66

7.3 模型 67

7.3.1 训练 68

7.3.2 预测 68

7.3.3 验证 69

7.4 结论 70

第8章 距离度量 71

8.1 引言 71

8.2 Jaccard距离 71

8.2.1 算法 72

8.2.2 时间复杂度 73

8.2.3 内存注意事项 73

8.2.4 分布式方法 73

8.3 MinHash 74

8.3.1 假设 75

8.3.2 时空复杂度 75

8.3.3 工具 75

8.3.4 分布式方法 75

8.4 余弦相似度 76

8.4.1 复杂度 78

8.4.2 内存注意事项 78

8.4.3 分布式方法 78

8.5 马氏距离 78

8.5.1 复杂度 79

8.5.2 内存注意事项 79

8.5.3 分布式方法 79

8.6 结论 80

第9章 回归 81

9.1 引言 81

9.1.1 选择模型 82

9.1.2 选择目标函数 82

9.1.3 模型拟合 83

9.1.4 模型验证 84

9.2 线性最小二乘 87

9.2.1 假设 88

9.2.2 复杂度 89

9.2.3 内存注意事项 89

9.2.4 工具 89

9.2.5 分布式方法 89

9.2.6 实例 90

9.3 线性回归中的非线性回归 97

9.4 随机森林 100

9.4.1 决策树 100

9.4.2 随机森林 103

9.5 结论 106

第10章 分类和聚类 107

10.1 引言 107

10.2 逻辑回归 108

10.2.1 假设 111

10.2.2 时间复杂度 111

10.2.3 内存注意事项 112

10.2.4 工具 112

10.3 贝叶斯推断与朴素贝叶斯 112

10.3.1 假设 114

10.3.2 复杂度 114

10.3.3 内存注意事项 114

10.3.4 工具 114

10.4 K-Means 115

10.4.1 假设 118

10.4.2 复杂度 118

10.4.3 内存注意事项 118

10.4.4 工具 118

10.5 最大特征值 118

10.5.1 复杂度 120

10.5.2 内存注意事项 120

10.5.3 工具 120

10.6 Louvain贪心算法 120

10.6.1 假设 121

10.6.2 复杂度 121

10.6.3 内存注意事项 121

10.6.4 工具 121

10.7 最近邻算法 121

10.7.1 假设 123

10.7.2 复杂度 123

10.7.3 内存注意事项 123

10.7.4 工具 123

10.8 结论 123

第11章 贝叶斯网络 125

11.1 引言 125

11.2 因果图、条件独立和马尔

 可夫 126

11.2.1 因果图和条件独立 126

11.2.2 稳定性和依赖性 127

11.3 d分离和马尔可夫性质 128

11.3.1 马尔可夫和因式

 分解 128

11.3.2 d分离 129

11.4 贝叶斯网络的因果图 132

11.5 模型拟合 133

11.6 结论 136

第12章 降维与隐变量模型 137

12.1 引言 137

12.2 先验 137

12.3 因子分析 139

12.4 主成分分析 140

12.4.1 复杂度 142

12.4.2 内存注意事项 142

12.4.3 工具 142

12.5 独立成分分析 142

12.5.1 假设 145

12.5.2 复杂度 145

12.5.3 内存注意事项 146

12.5.4 工具 146

12.6 LDA主题模型 146

12.7 结论 152

第13章 因果推断 153

13.1 引言 153

13.2 实验 154

13.3 观测值:一个实例 157

13.4 非因果阻断控制法 163

13.5 机器学习估计量 167

13.5.1 重新审视G公式 167

13.5.2 实例 168

13.6 结论 172

第14章 高级机器学习 173

14.1 引言 173

14.2 优化 173

14.3 神经网络 175

14.3.1 神经网络层 176

14.3.2 神经网络容量 177

14.3.3 过拟合 179

14.3.4 批拟合 183

14.3.5 损失函数 183

14.4 结论 185

第三部分 瓶颈和优化

第15章 硬件基础 188

15.1 引