| ISBN | 出版时间 | 包装 | 开本 | 页数 | 字数 |
|---|---|---|---|---|---|
| 未知 | 暂无 | 暂无 | 未知 | 0 | 暂无 |
序
前言
第1章 绪论
1.1 大规模应用对高性能计算的迫切需求
1.2 高性能计算硬件基础
1.2.1 多核通用处理器
1.2.2 众核加速器
1.2.3 加速器增强型异构系统
1.3 高性能计算编程挑战与研究现状
1.3.1 高性能计算编程挑战
1.3.2 高性能计算编程研究现状
参考文献
第2章 高性能计算并行基础
2.1 并行计算分类
2.1.1 数据并行
2.1.2 任务并行
2.2 并行计算的度量
2.2.1 性能
2.2.2 扩展性
2.3 并行程序测试集
2.3.1 Linpack
2.3.2 13类基准测试分类体系
2.3.3 其他测试集
参考文献
第3章 并行程序设计
3.1 共享存储计算机
3.1.1 共享存储体系结构
3.1.2 OpenMP编程
3.1.3 实例
3.2 分布式存储计算机
3.2.1 分布式存储体系结构
3.2.2 MPI消息传递机制
3.2.3 实例
3.3 大规模并行计算
3.3.1 混合编程模型
3.3.2 大规模系统节点问通信优化
参考文献
第4章 GPU并行计算
4.1 GPU体系结构
4.1.1 GPU的发展历程
4.1.2 GPU硬件体系结构
4.2 CUDA编程模型
4.2.1 程序结构
4.2.2 存储模型
4.3 性能优化
4.3.1 大规模线程并行
4.3.2 全局带宽的利用
4.3.3 SM片上资源优化
4.4 单节点多GPU编程
4.4.1 单线程多GPU编程
4.4.2 多线程多GPU编程
4.4.3 多GPU P2P直接通信模式
4.5 大规模CPU-GPU异构计算
参考文献
第5章 MIC并行计算
5.1 MIC体系结构
5.1.1 MIC体系结构概述
5.1.2 MIC计算核
5.1.3 MIC环形网络
5.1.4 MIC存储层次
5.2 MIC编程模式
5.2.1 offioad编程模式
5.2.2 native编程模式
5.2.3 底层编程接口
5.3 性能优化策略
5.3.1 并行优化
5.3.2 访存优化
5.3.3 通信优化
5.4 节点内多MIC并行计算
5.4.1 基于stencil计算的任务划分
5.4.2 基于pragma卸载模式的优化
5.4.3 基于系统级接口的卸载模式
5.4.4 基于MPI-OpenMP的对称模式
5.4.5 不同卸载模式的比较
5.5 大规模CPU-MIC并行计算
5.5.1 大规模CPU-MIC异构系统
5.5.2 基于MIC加速器的大规模异构系统的编程模型
5.5.3 基于MIC加速器的大规模异构系统的并行优化
5.6 本章小结
参考文献
第6章 面向贝叶斯进化分析的大规模异构混合计算
6.1 引言
6.2 背景
6.2.1 MrBayes概述
6.2.2 同时利用CPI_J和GPIJ的挑战
6.3 方法
6.3.1 OMC3算法
6.3.2 负载划分策略
6.4 结果和讨论
6.4.1 实验设置
6.4.2 单计算节点上的性能
6.4.3 验证负载划分策略
6.4.4 多节点扩展性
6.5 小结
参考文献
第7章 基于CPU-GPU异构系统的双岩沉降模拟
7.1 概述
7.2 数学模型和数值方法
7.3 并行实现设计
7.3.1 基于MPI的CPU-only实现
7.3.2 GPU-only实现
7.3.3 CPU-GPU混合实现
7.4 实验评估与分析
7.4.1 实验设置和结果
7.4.2 单GPU性能比较与分析
7.4.3 扩展性评测
7.4.4 时间分布
7.5 小结
参考文献
第8章 接近纳米级精度的钙动力模拟并行计算
8.1 引言
8.2 应用描述
8.2.1 数学模型
8.2.2 数值方法
8.3 目标体系结构
8.4 实现和优化
8.4.1 整体策略
8.4.2 单协处理器利用
8.4.3 单节点利用
8.4.4 多节点效率
8.5 性能研究
8.5.1 单协处理器性能
8.5.2 单节点性能
8.5.3 弱扩展性
8.5.4 强扩展性
8.6 模拟结果
8.7 小结
参考文献
第9章 未来的高性能计算
9.1 E级计算的挑战
9.2 Scale up与Scale out的比较
9.3 未来可能的发展方向
9.3.1 大规模机器学习
9.3.2 热点方向
参考文献