大规模数据分析和建模:基于Spark与R

大规模数据分析和建模:基于Spark与R
作 者: 哈维尔·卢拉辛 凯文·郭(Kevin Kuo 魏博
出版社: 机械工业出版社
丛编项:
版权说明: 本书为公共版权或经版权方授权,请支持正版图书
标 签: 暂缺
ISBN 出版时间 包装 开本 页数 字数
未知 暂无 暂无 未知 0 暂无

作者简介

  Javier Luraschi是大规模数据科学诸多库的发明者,包括sparklyr、r2d3、pins和cloudml。 Kevin Kuo构建了机器学习库,并领导了Kasa AI的开放保险研究。 Edgar Ruiz构建了企业级的数据解决方案工具,包括dbplot、tidypredict和modeldb。

内容简介

这本书的目的是帮助所有人通过R使用Apache Spark。第1章~第5章,简单地介绍了如何大规模执行数据科学和机器学习项目。第6~9章介绍了使用Spark进行集群计算中令人激动的基本概念。第10章~第13章涵盖一些高级主题,包括分布式R、Streaming和社区贡献等。

图书目录

序言1

前言3

第1章 引言9

11 概述10

12 Hadoop10

13 Spark12

14 R16

15 sparklyr19

16 小结20

第2章 开始21

21 概述21

22 预备操作22

221 安装sparklyr23

222 安装Spark23

23 连接24

24 使用Spark25

241 网络接口25

242 分析28

243 建模28

244 数据30

245 扩展30

246 分布式R31

247 流式数据31

248 日志32

25 断开连接33

26 使用RStudio33

27 资源35

28 小结36

第3章 分析37

31 概述37

32 数据导入40

33 数据整理41

331 内置函数42

332 相关性43

34 可视化45

341 使用ggplot246

342 使用dbplot47

35 建模49

36 沟通51

37 小结54

第4章 建模56

41 概述56

42 探索性数据分析58

43 特征工程65

44 监督式学习68

441 广义线性回归72

442 其他模型73

45 非监督式学习73

451 数据准备74

452 主题建模75

46 小结77

第5章 管道操作78

51 概述78

52 创建工作80

53 用例81

54 操作模式83

55 交互性84

56 部署86

561 批打分87

562 实时打分88

57 小结90

第6章 集群92

61 概述92

62 本地化94

621 管理器94

622 发行版98

63 云端100

631 亚马逊101

632 Databricks102

633 谷歌103

634 IBM105

635 微软106

636 Qubole107

64 Kubernetes107

65 工具108

651 RStudio108

652 Jupyter109

653 Livy110

66 小结111

第7章 连接112

71 概述112

711 边缘节点114

712 Spark主目录114

72 本地模式115

73 单机模式116

74 YARN116

741 YARN客户端117

742 YARN集群117

75 Livy118

76 Mesos120

77 Kubernetes121

78 云模式121

79 批量模式122

710 工具123

711 多次连接123

712 故障排除124

7121 记录日志124

7122 Spark Submit124

7123 Windows126

713 小结126

第8章 数据127

81 概述127

82 读取数据129

821 路径129

822 模式130

823 内存131

824 列132

83 写入数据133

84 复制数据134

85 文件格式135

851 CSV136

852 JSON137

853 Parquet138

854 其他139

86 文件系统140

87 存储系统140

871 Hive141

872 Cassandra142

873 JDBC142

88 小结143

第9章 调试144

91 概述144

911 计算图146

912 时间线148

92 配置148

921 连接设置150

922 提交设置151

923 运行时设置152

924 sparklyr设置153

93 分区156

931 隐式分区156

932 显式分区157

94 缓存158

941 检查点159

942 内存159

95 重洗160

96 序列化161

97 配置文件161

98 小结162

第10章 扩展163

101 概述163

102 H2O165

103 图模型169

104 XGBoost173

105 深度学习176

106 基因组学179

107 空间数据181

108 故障排除183

109 小结183

第11章 分布式R185

111 概述185

112 用例187

1121 定制解析器188

1122 分区建模189

1123 网格搜索191

1124 Web API192

1125 模拟193

113 分区194

114 分组195

115 列196

116 context参数197

117 函数198

118 程序包199

119 集群需求200

1191 安装R200

1192 Apache Arrow201

1110 故障排除203

11101 工作节点日志204

11102 解决超时205

11103 检查分区206

11104 调试工作节点206

1111 小结207

第12章 数据流208

121 概述208

122 转换211

1221 分析212

1222 建模213

1223 管道214

1224 分布式R215

123 Kafka216

124 Shiny218

125 小结220

第13章 社区贡献221

131 概述221

132 Spark API223

133 Spark扩展224

134 使用Scala代码226

135 小结228

附录A 补充参考代码229