高能物理科学大数据系统与应用

高能物理科学大数据系统与应用
作 者: 程耀东 汪璐 李海波
出版社: 科学出版社
丛编项:
版权说明: 本书为公共版权或经版权方授权,请支持正版图书
标 签: 暂缺
ISBN 出版时间 包装 开本 页数 字数
未知 暂无 暂无 未知 0 暂无

作者简介

暂缺《高能物理科学大数据系统与应用》作者简介

内容简介

《高能物理科学大数据系统与应用》介绍了高能物理领域的实验数据存储和管理技术,全面讲解了数据管理体系架构、海量存储系统的设计与实现、跨地域分布式数据管理、面向事例的数据库、数据长期保存与共享等关键技术。特别强调了如何颇髙能物理大科学装置所带来的海量数据管理挑战,包括分布式处理、深度数据挖掘与科学数据的开放共享。通过案例分析和实际应用,展示了科学大数据管理在高能物理研究中的重要性与实际 解决方案。

图书目录

目录

前言

第1章 科学大数据基础 1

1.1 大数据基本概念 1

1.1.1 大数据产生 1

1.1.2 大数据特点 2

1.1.3 大数据龍 4

1.1.4 科学大数据 4

1.2 高能物理大科学装置 6

1.2.1 大型强子对撞机实验 7

1.2.2 北京谱仪Ⅲ实验 9

1.2.3 大亚湾和江门中微子实验 10

1.2.4 高海拔宇繊观测站 11

1.2.5 中国散列中子源 13

1.2.6 高能同步辐射光源 14

1.3 髙能物理离线数据处理 16

1.3.1 数据处理的基本过程 16

1.3.2 数据存储 16

1.3.3 数据传输 18

1.3.4 计算集群 19

1.3.5 贿计算与分布式计算 20

1.3.6 数据长期保存与开放共享 22

1.4 高能物理科学大数据特点 22

1.5本章小结 24

思考题 24

参考文献 24

第2章 高能物理大数据管理体系 26

2.1 大数据系统架构 26

2.1.1 IT基础设施 26

2.1.2 数据采集与清洗 27

2.1.3 海量数据存储 29

2.1.4 并行数据处理 32

2.1.5 数据分析和挖掘工具 35

2.2 大数据基础设施 36

2.3 数据生命周期管理 38

2.4 高能物理计算平台与发展 42

2.5 本章小结 44

思考题 44

参考文献 44

第3章 存储技术与系统 46

3.1 存储硬件及发展 46

3.1.1 磁盘 46

3.1.2 固态酿 49

3.1.3 磁带 52

3.1.4 光盘 53

3.2 磁盘阵列编码 53

3.2.1 RAID 技术 53

3.2.2 动态磁盘池 57

3.2.3 纠删码 58

3.3 分布式文件系统 60

3.3.1 分布式文件系统的发展 60

3.3.2 文件访语义 63

3.3.3 文件系统设计 64

3.4 磁带管理与分层存储 65

3.4.1 数据读写 66

3.4.2 读写指定位置的文件 66

3.4.3 磁带文件元数据管理 68

3.4.4 磁带库、磁带卷以及磁带驱动器 69

3.4.5 虚拟磁带文件系统 70

3.4.6 分层存储 70

3.5 实际系统剖析 71

3.5.1 Lustre 71

3.5.2 EOS 74

3.6 本章小结 76

思考题 76

参考文献 76

第4章 事例与元数据管理 78

4.1 高能物理事例组织 78

4.1.1 高能物理事例定义 78

4.1.2 事例结构 78

4.1.3 基于事例的高能物理数据分析 80

4.2 事例特征索引 81

4.2.1 正向索引 81

4.2.2 倒排索引 81

4.2.3 高能物理中的事例特征索引 84

4.3 高能物理元数据组织 85

4.3.1 元数据的概念及意义 85

4.3.2 元数据的组织管理方式 86

4.3.3 Bookkeeping系统 86

4.4 斜示系统剖析(EventDB) 87

4.4.1 事例特征抽取 88

4.4.2 事例索引数据库及查询条件归并 89

4.4.3 面向事例的缓存 89

4.4.4 面向事例賺据传输 94

4.4.5 EventDB系统性能分析 95

4.4.6 基于EventDB的事例分析 97

4.5 本章小结 98

思考题 99

参考文献 99

第5章 高能物理大数据处理模式 101

5.1 高通量计算 101

5.1.1 PBS 101

5.1.2 HTCondor 102

5.2 高性能计算 104

5.2.1 SLURM介绍 105

5.2.2 SLURM作业调度 105

5.2.3 SLURM资源管理 106

5.2.4 SLURM作业运行 106

5.3 流式计算 107

5.3.1 实时数据集成工具 108

5.3.2 消息队列模型 111

5.3.3 流式计算过程 113

5.3.4 流式计算系统 115

5.4 交互式计算 116

5.4.1 JupyterLab 117

5.4.2 Kubemetes 118

5.5 本章小结 119

思考题 119

参考文献 119

第6章 高能物理大数据分析工具 121

6.1 数学与统计工具 121

6.1.1 Python简介 121

6.1.2 Julia简介 121

6.1.3 Maxima简介 122

6.2 数据可视化软件 124

6.2.1 ROOT 124

6.2.2 gnuplot 128

6.2.3 Maxima 140

6.2.4 Julia 145

6.2.5 学习资源 149

6.3 粒子物理模拟工具 150

6.3.1 Geant4 简介 150

6.3.2 安装与配置 151

6.3.3 Geant4 IS 程简介 154

6.3.4 学习资源 160

6.4 本章小结 160

思考题 161

参考文献 161

第7章 高能物理云计算 162

7.1 云计算介绍 162

7.1.1 云计算概念 162

7.1.2 虚拟化技术 163

7.1.3 云计算与网格计算 165

7.1.4 高能物理与云计算 166

7.2 髙能物理云计算集群系统 169

7.2.1 KVM虚拟机的性能测试与优化 169

7.2.2 高能物理作业在虚拟机上的性能测试 169

7.2.3 高能物理虚拟集群资源管理平台 170

7.3 弹性计算资源管理调度 172

7.3.1 面向多个高能物理应用的弹性资源管理算法 172

7.3.2 面向高能物理应用的弹性资源管理框架 173

7.4 容器与调度 177

7.4.1 容器技术概述 177

7.4.2 容器与虚拟机 178

7.4.3 容器技术在国内外的应用 180

7.4.4 高能物理容器技术应用 180

7.5 案例介绍 184

7.6 本章小结 185

思考题 185

参考文献 186

第8章 跨地域数据管理技术 188

8.1 网格数据管理 188

8.1.1 数据管理的目标 188

8.1.2 网络数据管理架构 189

8.2 全局数据管理 191

8.2.1 统一命名空间 191

8.2.2 Kademlia算法 193

8.2.3 IPFS 194

8.3 存储资源管理 196

8.3.1 存储资源管理简& 196

8.3.2 SRM定位 197

8.3.3 SRM文件和空间管理 198

8.3.4 SRM的应用示例 199

8.3.5 存储资源记账 200

8.4 数据联盟与数据湖 201

8.4.1 数据联盟 201

8.4.2 数据湖 202

8.5 实际系统剖分、析ff 203

8.5.1 Rucio分布式数据管理系$ 203

8.5.2 Dynafed 208

8.6本章小结 211

思考题 211

参考文献 211

第9章 高能物理数据长期保存与开放 213

9.1 概述 213

9.2 高能物理数据分类 214

9.2.1 数据保存级别 214

9.2.2 数据共享模式 216

9.3 数据长期保存策略 217

9.3.1 数据长期保存目标 218

9.3.2 比特级数据的长期保存 219

9.3.3 计算环境的长期保存 220

9.3.4 分析过程的长期保存 221

9.4 数据标识 222

9.4.1 标识符的组织 222

9.4.2 几种**的数据标识系统 223

9.5 数据检索 224

9.5.1 HEPData 224

9.5.2 CERN Open Data 225

9.6 案例分析 225

9.7本章小结 228

思考题 228

参考文献 228

第10章 高能物理大数据中的深度学习应用 230

10.1 深度学习及相关知识 230

10.1.1 深度学习的基本原理 230

10.1.2 基于深度神经网络的分类 232

10.1.3 基于卷积神经网络的分类和预测 .232

10.1.4 基于非监督学习的分类 236

10.2 基于深度学习的数据压缩 238

10.2.1 数据压缩的基本方法 238

10.2.2 基于神经网络的数据压缩 244

10.3 数据驱动的数据存储管理 254

10.3.1 基于监督学习的数据分层管理 254

10.3.2 基于强化学习的自动化调参 264

10.3.3 基于非监督学习的异常检测 269

10.4 本章小结 273

思考题 274

参考文献 274

第11章 前沿技术展望 277

11.1 高性能存储 277

11.1.1 存储硬件雌展 277

11.1.2 固态硬盘存储优化 283

11.1.3 高性能存储开发套件 287

11.1.4 基于闪存的文件系统 290

11.1.5 分布式异构对象存储 294

11.2 可计算存储 297

11.2.1 传统体系架构的挑战 297

11.2.2 可计算存储体系架构 300

11.2.3 可计算存储典型应用 302

11.3 数据组织与管理 305

11.3.1 未来的挑战 305

11.3.2 数据组织 306

11.3.3 数据管理 308

11.3.4 数据访问 309

11.4 本章小结 310

思考题 310

参考文献 311