数据馆员的Spark简明手册

作　者：	顾立平马景源
出版社：	科学技术文献出版社
丛编项：
版权说明：	本书为出版图书，暂不支持在线阅读，请支持正版图书
标　签：	暂缺

ISBN	出版时间	包装	开本	页数	字数
未知	暂无	暂无	未知	0	暂无

作者简介

　　顾立平（Alan Ku），博士、教授。在中国科学院文献情报中心从事开放获取、著作权、数据权益的政策研究与建议；在中国科学院大学经济与管理学院讲授信息用户与服务研究。学术理念和工作信念是：好做事（态度）、做好事（方向）、做事好（目标）。

内容简介

《数据馆员的Spark简明手册》旨在协助初级数据馆员们能够迅速了解Spark方面的知识、用途及整体概貌，作为进一步实践操作之前的入门基础读物。《数据馆员的Spark简明手册》力求简单、通俗、易懂，以读者能够快速把握重点为主，从而开展项目、课题、实验和研究。本手册旨在知识模块化，有了整体概述，可以方便读者与其他解决方案进行比较，在实践中遇到问题可以尽快发现需要深入钻研的部分。《数据馆员的Spark简明手册》包括8章。第1章概述Spark的发展背景、计算框架及机器学习等。第2章描述Spark的安装与运行。第3章概述Scala编程实现的方式。第4章概述Spark编程模型和解析。第5章进入到Spark数据挖掘的应用。第6章考虑大数据实时计算的问题，进行方案比较，突出Spark的特点。第7章阐明进一步优化Spark的方式。第8章概述Spark SQL来阐明如何在Spark上使用人们比较熟悉的SQL数据库语言的方式。

图书目录

第1章 Spark生态介绍

1．1 MapReduce、Storm和Spark模型比较

1．2 Spark产生背景

1．3 Spark的内存计算框架

1．4 Spark Strearning：流式计算框架

1．5 Spark SQL

1．6 Spark MLlib：机器学习

1．7 Spark GraphX和取代Bagel的理由

1．8 BlinkDB

1．9 SparkR

第2章 Spark的安装与运行

2．1 Spark的安装

2．1．1 Spark的源码编译方式

2．1．2 Spark Standalone安装

2．1．3 Spark应用程序部署工具spark-submit

2．1．4 Spark的高可用性部署

2．2 Spark的运行架构

2．2．1 基本术语

2．2．2 运行架构

2．2．3 Spark on Standalone的运行过程

2．2．4 Spark on YARN的运行过程

2．3 Spark的运行

2．3．1 Spark on Standalone

2．3．2 Spark on YARN

2．3．3 Standalone与YARN模式优缺点比较

第3章 Spark的scala编程

3．1 Scala开发环境搭建

3．2 Scala开发Spark应用程序

3．3 编程实现

3．3．1 使用Java编程

3．3．2 使用Python编程

第4章 spark的编程模型和解析

4．1 SpaEk的编程模型

4．2 RDD的特点、操作、依赖关系

4．3 Spark应用程序的配置

4．4 Spark的架构

4．5 Spark的容错机制

4．6 数据的本地性

4．7 缓存策略介绍

4．8 宽依赖和窄依赖

第5章 Spark数据挖掘

5．1 MLlib

5．2 GraphX

5．2．1 GraphX原理

5．2．2 Table Operator和Graph Operator的区别

5．2．3 Vertices、Edges和Triplets介绍

5．2．4 GraphX图构造者

5．3 SparkR

5．3．1 SparkR原理

5．3．2 如何运行SparkR

第6章 Spark Strearning

6．1 Spark Strearning与Storm的区别

6．2 Kafka的部署

6．3 Kafka与Spark Strearning的整合

6．4 Spark Strearning原理

6．4．1 Spark流式处理架构

6．4．2 DStream的特点

6．4．3 Dstream的操作和RDD的区别

6．4．4 无状态转换操作与有状态转换操作

6．4．5 优化Spark Strearning

6．5 Strearning的容错机制

6．6 Strearning在YARN模式下的注意事项

第7章 Spark优化

7．1 序列化优化——Knro

7．2 Spark参数优化

7．3 Spark任务的均匀分布策略

7．4 Partition key倾斜的解决方案

7．5 Spark任务的监控

7．6 GC的优化

7．7 Spark Streaming吞吐量优化

7．8 Spark RDD使用内存的优化策略

第8章 SQL on Spark

8．1 BDAS数据分析软件栈

8．2 Spark SQL工具

8．3 Spark SQL原理

8．4 Spark SQL编程