| ISBN | 出版时间 | 包装 | 开本 | 页数 | 字数 |
|---|---|---|---|---|---|
| 未知 | 暂无 | 暂无 | 未知 | 0 | 暂无 |
第1章 Spark生态介绍
1.1 MapReduce、Storm和Spark模型比较
1.2 Spark产生背景
1.3 Spark的内存计算框架
1.4 Spark Strearning:流式计算框架
1.5 Spark SQL
1.6 Spark MLlib:机器学习
1.7 Spark GraphX和取代Bagel的理由
1.8 BlinkDB
1.9 SparkR
第2章 Spark的安装与运行
2.1 Spark的安装
2.1.1 Spark的源码编译方式
2.1.2 Spark Standalone安装
2.1.3 Spark应用程序部署工具spark-submit
2.1.4 Spark的高可用性部署
2.2 Spark的运行架构
2.2.1 基本术语
2.2.2 运行架构
2.2.3 Spark on Standalone的运行过程
2.2.4 Spark on YARN的运行过程
2.3 Spark的运行
2.3.1 Spark on Standalone
2.3.2 Spark on YARN
2.3.3 Standalone与YARN模式优缺点比较
第3章 Spark的scala编程
3.1 Scala开发环境搭建
3.2 Scala开发Spark应用程序
3.3 编程实现
3.3.1 使用Java编程
3.3.2 使用Python编程
第4章 spark的编程模型和解析
4.1 SpaEk的编程模型
4.2 RDD的特点、操作、依赖关系
4.3 Spark应用程序的配置
4.4 Spark的架构
4.5 Spark的容错机制
4.6 数据的本地性
4.7 缓存策略介绍
4.8 宽依赖和窄依赖
第5章 Spark数据挖掘
5.1 MLlib
5.2 GraphX
5.2.1 GraphX原理
5.2.2 Table Operator和Graph Operator的区别
5.2.3 Vertices、Edges和Triplets介绍
5.2.4 GraphX图构造者
5.3 SparkR
5.3.1 SparkR原理
5.3.2 如何运行SparkR
第6章 Spark Strearning
6.1 Spark Strearning与Storm的区别
6.2 Kafka的部署
6.3 Kafka与Spark Strearning的整合
6.4 Spark Strearning原理
6.4.1 Spark流式处理架构
6.4.2 DStream的特点
6.4.3 Dstream的操作和RDD的区别
6.4.4 无状态转换操作与有状态转换操作
6.4.5 优化Spark Strearning
6.5 Strearning的容错机制
6.6 Strearning在YARN模式下的注意事项
第7章 Spark优化
7.1 序列化优化——Knro
7.2 Spark参数优化
7.3 Spark任务的均匀分布策略
7.4 Partition key倾斜的解决方案
7.5 Spark任务的监控
7.6 GC的优化
7.7 Spark Streaming吞吐量优化
7.8 Spark RDD使用内存的优化策略
第8章 SQL on Spark
8.1 BDAS数据分析软件栈
8.2 Spark SQL工具
8.3 Spark SQL原理
8.4 Spark SQL编程