Ganglia系统监控

Ganglia系统监控
作 者: Matt Massie Bernard Li Brad Nicholes Vladimir Vuksan 陈学鑫 张诚诚
出版社: 机械工业出版社
丛编项:
版权说明: 本书为公共版权或经版权方授权,请支持正版图书
标 签: 操作系统/系统开发 计算机/网络
ISBN 出版时间 包装 开本 页数 字数
未知 暂无 暂无 未知 0 暂无

作者简介

  Matt Massie,2000年在加利福尼亚大学伯克利分校担任研究员时开发了Ganglia。他设计的Ganglia实现了对遍布整个美国,用于科学研究的共享计算机网格集群的监控。2010年,在O扲eilly出版的由John Allspaw和Jesse Robbins编写的 Web Operations: Keeping the Data On Time一书中,他撰写了关于集群监控的一个章节。Matt现在Cloudera担任软件工程师,聚焦于Apache Hadoop企业管理与监控。Bernard Li,担任劳伦斯伯克利国家实验室高性能计算系统工程师,目前也是Ganglia系统的维护工程师。他从2003年开始涉及高性能计算领域并致力于很多开源项目,如OSCAR、SystemImager和Warewulf。Brad Nicholes,是Apache软件基金会的成员,目前在Novell担任软件工程师顾问。除了参与Apache HTTPD和APR项目,Brad也是Ganglia项目的开发者和管理员。作为Ganglia项目的开发人员,Brad开发了C/C++和Python指标模块,并将其集成至Ganglia V3.1.x。目前Ganglia系统提供的部分指标模块,最初是由他开发贡献的。Brad毕业于犹他大学(University of Utah)和杨百翰大学(Brigham Young University),拥有计算机科学学位。Vladimir Vuksan(Broadcom),在技术操作、系统工程和软件开发领域工作超过15年。就职于Broadcom之前,他曾在Rave Mobile Safety、Demandware和新墨西哥大学(University of New Mexico)开发高可用性解决方案和使管理和基础设施运行更容易的工具。

内容简介

《Ganglia系统监控》由Ganglia的设计者和维护人员亲自执笔,知识性和权威性毋庸置疑。本书不但展示了如何从任意规模的集群、网格或云基础架构中收集系统指标并使其可视化,而且为如何针对20 000台主机每10秒跟踪一次CPU利用率等问题提供答案。一旦你知晓Ganglia的主要部件如何协同工作,就会明白Ganglia是解决上述问题的最佳选择。本书颇具实践性,可以帮助经验丰富的系统管理员更好地运用Ganglia 3.X。《Ganglia系统监控》还可以帮助你了解如何扩展基本的指标库,取回当前指标数值,查看指标的汇聚视图,观察数据时序的趋势。你也可以通过一些实际Ganglia案例了解它是如何满足监控的一些需求的。■ 判断Ganglia是否适合你的工作环境。■ 了解Ganglia的gmond和gmetad后台程序是如何建立一个临时指标集合的。■ 根据一些有价值的提示和建议,在部署Ganglia的早期制订可扩展的计划。■ 利用gweb和Ganglia的Web客户端进一步可视化数据。■ 编写插件来扩展gmond的指标集。■ 如何解决安装Ganglia时可能遇到的问题。■ 如何将Ganglia和sFlow以及Nagios监控系统集成。

图书目录

前言 第1章 初识Ganglia

规模的问题

主机即监控系统

基于冗余的结构

Ganglia是否适合你

gmond:字节大爆炸

gmetad:整合所有信息

gweb:下一代数据分析

稍等!这并不是所有 第2章 Ganglia的安装和配置

Ganglia的安装

Ganglia的配置

安装后的工作 第3章 可扩展性

谁会关注可扩展性

gmond和Ganglia集群的可扩展性

gmetad存储规划和可扩展性 第4章 Ganglia的Web界面

Ganglia的Web 界面导航

gweb的Search选项卡

gweb的Views选项卡

gweb 的Aggregated Graphs选项卡

gweb的Compare Hosts选项卡

gweb的Events选项卡

gweb的Automatic Rotation选项卡

gweb的Mobile选项卡

自定义复合图表

其他特性

认证和授权 第5章 指标管理和扩展

gmond:指标收集代理

基本指标

扩展指标

利用模块扩展gmond

利用gmetric扩展gmond

如何在C/C++、Python和gmetric之间做出选择

XDR协议

Java和gmetric4j

真实世界:利用NVML模块进行GPU监控 第6章 Ganglia故障排查与处理

概述

有用的资源

对监控系统进行监控

常用故障排查机制及工具

在前台/调试模式下运行

常见的部署问题

典型问题及解决步骤 第7章 Ganglia与Nagios

发送Nagios数据到Ganglia

使用Nagios监控Ganglia指标

在Nagios UI中显示Ganglia数据

使用Nagios监控Ganglia 第8章 Ganglia与sFlow

架构

标准sFlow指标

Java虚拟机指标

配置gmond以接收sFlow

Host sFlow 代理

故障解决

联合其他sFlow工具使用Ganglia 第9章 Ganglia案例分析

Tagged公司

SARA

路透社财务软件

Lumicall(Android上的移动VoIP)

稍等,多少指标?监控Quantcast

工具箱中的很多工具:监控Etsy

附录A 先进的指标配置与调试

附录B Ganglia和Hadoop/HBase