Hadoop生态系统

Hadoop生态系统
作 者: Kevin Sitto Marshall Presser
出版社: 中国电力出版社
丛编项:
版权说明: 本书为公共版权或经版权方授权,请支持正版图书
标 签: 计算机/网络 软件工程/开发项目管理
ISBN 出版时间 包装 开本 页数 字数
未知 暂无 暂无 未知 0 暂无

作者简介

  Kevin Sitto,是Pivotal Software公司的领域解决方案工程师,主要为客户提供咨询服务,帮助客户理解和描述大数据需求。Marshall Presser,是Pivotal Data Engineering集团的成员。他帮助客户使用Hadoop、关系数据库和内存数据网格来解决复杂的分析问题。

内容简介

《Hadoop生态系统》本书每一章都介绍了不同的主题(例如核心技术或数据传输),并且解释了为什么特定组件适用或不适用特定的需求。对于数据处理来说,使用Hadoop是一个全新的挑战,但如果有了这本便利的参考书,你将很容易领会使用Hadoop的精妙所在。主要包括如下主题:核心技术,Hadoop分布式文件系统(HDFS)、MapReduce、YARN和Spark。数据库和数据管理,Cassandra、HBase、MongoDB和Hive。序列化,Avro、JSON和Parquet。管理和监视,Puppet、Chef、Zookeeper和Oozie。分析辅助,Pig、Mahout和MLLib。数据传输,Scoop、Flume、distcp和Storm。安全、访问控制和审计,Sentry、Kerberos和Knox。云计算和虚拟化,Serengeti、Docker和Whirr。

图书目录

前言 1

第1章关键技术 7

1.1 Hadoop分布式文件系统(HDFS) 8

1.2 MapReduce . 11

1.3 YARN 13

1.4 Spark . 15

第2章数据库及数据管理 17

2.1 Cassandra .19

2.2 HBase 21

2.3 Accumulo .24

2.4 Memcached . 26

2.5 Blur .28

2.6 Solr . 30

2.7 MongoDB 32

2.8 Hive 34

2.9 Spark SQL ( 前身是 Shark) 36

2.10 Giraph . 38

第3章序列化 41

3.1 Avro 43

3.2 JSON 46

3.3 Protocol Buffers (protobuf) . 48

3.4 Parquet 50

第4章管理与监控. 53

4.1 Ambari 54

4.2 HCatalog 56

4.3 Nagios 58

4.4 Puppet 59

4.5 Chef 61

4.6 ZooKeeper 63

4.7 Oozie . 66

4.8 Ganglia . 68

第5章分析辅助 . 69

5.1 MapReduce 接口69

5.2 分析库 70

5.3 Pig 72

5.4 Hadoop Streaming 74

5.5 Mahout 76

5.6 MLLib 78

5.7 Hadoop 图像处理接口(HIPI) 80

5.8 SpatialHadoop 81

第6章数据传输 . 83

6.1 Sqoop .85

6.2 Flume .87

6.3 DistCp 89

6.4 Storm . 90

第7章安全、访问控制和审计 93

7.1 Sentry. 95

7.2 Kerberos 97

7.3 Knox 99

第8章云计算和虚拟化 101

8.1 Serengeti. 103

8.2 Docker105

8.3 Whirr 107