数据仓库工具箱:维度建模的完全指南

数据仓库工具箱:维度建模的完全指南
作 者: Ralph Kimball Margy Ross 谭明金 谭明金
出版社: 电子工业出版社
丛编项: 数据仓库与数据挖掘技术应用丛书
版权说明: 本书为公共版权或经版权方授权,请支持正版图书
标 签: 数据库存储与管理
ISBN 出版时间 包装 开本 页数 字数
未知 暂无 暂无 未知 0 暂无

作者简介

  RalphKimball博士自1982年以来一直是数据仓库行业最主要的开拓者,并且是目前最知名的演讲人、咨询师与培训员之一。他是《智能企业》杂志的“数据仓库设计者”专栏的撰稿人,同时也是最畅销的《数据仓库生命周期工具箱》与《数据网库工具箱》两部著作的作者。

内容简介

本书先介绍基本知识,然后逐个讨论具体实例内容,最后进行综合总体分析,在内容的结构方面很有特色。本书涉及的行业较多,但这些内容从不同角度体现了数据仓库的各个方面,因而对于完整的学习与掌握数据仓库知识显得十分必要。RalphKimball博士自1982年以来一直是数据仓库行业最主要的开拓者,并且是目前最知名的演讲人、咨询师与培训员之一。他是《智能企业》杂志的“数据仓库设计者”专栏的撰稿人,同时也是最畅销的《数据仓库生命周期工具箱》与《数据网库工具箱》两部著作的作者。本书主要介绍本书从维度建模的基本知识入手,通过给出零售、库存、采购、订单管理、顾客关系管理、账目、人力资源管理、财经服务、电信与公用事业、交通、教育、卫生护理、电子商务以及保险等方面的实例研究,全面、深入、透彻与具体地介绍了利用维度模型设计与开发数据仓库的综合技术知识。同时,本书对数据仓库在当前社会与技术背景下的发展前景进行了很有远见的探索。本书先介绍基本知识,然后逐个讨论具体实例内容,最后进行综合总体分析,在内容的结构方面很有特色。本书涉及的行业较多,但这些内容从不同角度体现了数据仓库的各个方面,因而对于完整的学习与掌握数据仓库知识显得十分必要。

图书目录

第1章维度建模初步1

1.1信息应用的不同领域1

1.2数据仓库的最终目标2

1.2.1出版业方面的比喻实例4

1.3数据仓库的组成6

1.3.1操作型源系统7

1.3.2数据聚集环节7

1.3.3数据展示9

1.3.4数据存取工具12

1.3.5其他要考虑的内容13

1.4维度建模词汇表15

1.4.1事实表15

1.4.2维度表18

1.4.3事实与维度的融合20

1.5关于维度建模的神话22

1.5.1应该避免的常见疏误24

1.6总结25

第2章零售营销26

2.1四步维度设计过程27

2.2零售实例的研究28

2.2.1第一步:选取业务处理30

2.2.2第二步:定义粒度30

2.2.3第三步:选定维度31

2.2.4第四步:确定事实32

2.3维度表属性34

2.3.1日期维度35

2.3.2产品维度39

2.3.3商场维度42

2.3.4促销维度43

2.3.5退化的事务编号维度46

2.4零售方案的运用48

2.5零售方案的扩展49

2.6经受住安逸诱惑的考验52

2.6.1维度的规范化处理(雪花处理)52

2.6.2维度使用过多54

2.7代理关键字56

2.8市场篮子分析59

2.9总结62

第3章库存63

3.1值链的引入63

3.2库存模型64

3.2.1周期库存快照65

3.2.2库存事务69

3.2.3库存累积快照70

3.3值链的集成72

3.4数据仓库总线结构73

3.4.1数据仓库总线矩阵75

3.4.2一致性维度78

3.4.3一致性事实82

3.5总结83

第4章采购84

4.1采购案例研究84

4.2采购事务85

4.2.1多事务事实表与单事务事实表86

4.2.2辅助性采购快照89

4.3渐变维度89

4.3.1类型1:改写属性值90

4.3.2类型2:添加维度行91

4.3.3类型3:添加维度列94

4.4混合渐变维度处理方法96

4.4.1可预见的多重变化96

4.4.2不可预见的单重变化97

4.5快变维度98

4.6总结99

第5章订单管理100

5.1订单管理的引入101

5.2订单事务101

5.2.1事实的规范化102

5.2.2维度的角色模仿103

5.2.3再谈产品维度104

5.2.4收货顾客维度106

5.2.5交易维度108

5.2.6订单编号退化维度109

5.2.7杂项维度110

5.2.8多种流通货币112

5.2.9粒度不同的标题与分列项事实113

5.2.10发票事务115

5.2.11赢利与亏损事实116

5.2.12利润率:最有效能的数据中心118

5.2.13利润率方面的告诫119

5.2.14顾客满意度事实119

5.3订单任务流水线累积快照120

5.3.1延迟计算122

5.3.2多个计量单位123

5.3.3后视图镜像124

5.4事实表的比较125

5.4.1事务事实表125

5.4.2周期快照事实表126

5.4.3累积快照事实表126

5.5实时分区的设计127

5.5.1实时分区的条件128

5.5.2事务粒度的实时分区128

5.5.3周期快照的实时分区129

5.5.4累积快照的实时分区130

5.6总结131

第6章客户关系管理132

6.1CRM概述133

6.1.1操作型与分析型CRM134

6.1.2CRM封装组件136

6.2客户维度136

6.2.1姓名与地址解析137

6.2.2常见的其他客户属性141

6.2.3低基数属性集的维度支架143

6.2.4大型变化客户维度144

6.2.5类型2客户维度变化的内容150

6.2.6客户行为研究组150

6.2.7商务客户体系结构152

6.2.8多源客户数据的组合158

6.3多业务处理的客户数据分析159

6.4总结160

第7章账目162

7.1账目案例研究162

7.2一般分类总账方面的数据163

7.2.1一般分类总账周期快照164

7.2.2一般分类总账日记账分录事务166

7.2.3财务报表169

7.3预算处理169

7.3.1合并事实表172

7.4OLAP与封装分析型方案的角色174

7.5总结175

第8章人力资源管理176

8.1维度中时间标记事务的跟踪176

8.1.1具有周期快照事实的时间标记维度180

8.2审计维度181

8.3关键词支架维度183

8.3.1选择AND与OR方面的难题184

8.3.2搜索子字符串184

8.4调查表数据186

8.5总结187

第9章财经服务188

9.1银行业案例研究188

9.2维度精选189

9.2.1家庭维度192

9.2.2多值维度193

9.2.3再谈微型维度194

9.3事实的自由值分段195

9.4时间点结余197

9.5异构产品方案199

9.5.1事务事实异构产品203

9.6总结203

第10章电信与公用事业205

10.1电信实例研究205

10.2设计复查要考虑的一般因素208

10.2.1粒度208

10.2.2日期维度209

10.2.3退化维度210

10.2.4维度解释与描述210

10.2.5代理关键字211

10.2.6维度太多(或者太少)211

10.3草案设计活动的讨论211

10.4地理位置维度213

10.4.1位置支架214

10.4.2支撑地理信息系统214

10.4总结215

第11章交通216

11.1飞机常客实例研究216

11.1.1多个事实表粒度217

11.1.2航段与行程的连接219

11.2向其他行业的扩展221

11.2.1载运货主221

11.2.2旅行社222

11.3将微型维度组合成超级维度223

11.3.1服务等级223

11.3.2起点与目的地224

11.4日期与时间方面更多的考虑226

11.4.1国别历法226

11.4.2作为维度或者事实的日间时间227

11.4.3处于多个时区的日期与时间228

11.5总结229

第12章教育230

12.1大学实例研究230

12.2用于维度跟踪的累积快照231

12.3非事实型事实表233

12.3.1学生注册事件234

12.3.2设施应用范围236

12.3.3学生听课事件237

12.4其他领域的分析兴趣240

12.5总结241

第13章卫生保健242

13.1卫生保健值环242

13.2卫生保健单据245

13.2.1日期维度所模仿的角色248

13.2.2多值诊断维度249

13.2.3扩展单据事实表以显示利润252

13.2.4住院出单维度253

13.3复杂卫生保健事件254

13.4医药记录255

13.4.1用于稀疏事实的事实维度255

13.5内容回顾257

13.5.1迟到事实行258

13.5.2迟到维度行259

13.6总结260

第14章电子商务261

14.1Web客户-服务器交互指南262

14.2为什么点击流并不仅仅是另外一种数据源264

14.2.1跟踪点击流数据所遇到的挑战265

14.2.2用于点击流的具体维度270

14.3用于整个会话的点击流事实表275

14.4用于单个页面事件的点击流事实表278

14.5聚集点击流事实表281

14.6将点击流数据中心集成到企业数据仓库282

14.7商务利润率数据中心284

14.8总结287

第15章保险289

15.1保险实例研究290

15.1.1保险值链291

15.1.2草拟的保险总线矩阵292

15.2保单事务293

15.2.1维度细节与方法293

15.2.2可选(或者补充)保单累积快照299

15.3保单周期快照299

15.3.1一致性维度299

15.3.2一致性事实300

15.3.3再谈异构产品301

15.3.4再谈多值维度302

15.4更多的保险实例研究背景302

15.4.1更新的保险总线矩阵303

15.5索赔事务304

15.6索赔累积快照306

15.7保险/索赔合并快照308

15.8非事实型事故事件309

15.9维度建模要避免的常见错误310

15.10总结313

第16章建立数据仓库314

16.1业务维度生命周期路线图315

16.1.1路线图的主要兴趣点315

16.2项目规划与管理317

16.2.1准备情况的评估317

16.2.2范围的确定319

16.2.3论证319

16.2.4人力资源配备319

16.2.5项目方案的开发与维护322

16.3业务需求定义323

16.3.1需求规划323

16.3.2业务需求收集325

16.3.3文档形成与后续整理327

16.4生命周期技术路径329

16.5技术体系设计329

16.5.1创建技术体系的8步过程330

16.6产品选购与安装332

16.7生命周期数据路径334

16.8维度建模334

16.9物理设计336

16.9.1聚集策略336

16.9.2初始索引策略337

16.10数据转储系统的设计与开发338

16.10.1维度表转储处理339

16.10.2事实表转储341

16.11生命周期分析型应用路径342

16.11.1分析型应用程序说明343

16.11.2分析型应用程序的开发343

16.12配发344

16.13维护与扩展345

16.14建立数据仓库需要避免的常见错误347

16.15总结349

第17章相关知识与展望350

17.1正在出现的技术进步351

17.2安全需求与隐私影响方面的政治压力353

17.2.1有益的使用与具有险恶用心的滥用之间存在冲突354

17.2.2由谁掌握个人数据355

17.2.3可能发生什么事情355

17.2.4监视监控人员如何影响数据仓库的体系356

17.3精心设计而避免出现灾难性的失败358

17.3.1灾难性故障358

17.3.2对灾难性故障的应对359

17.4知识产权与公平使用361

17.5数据仓库应用方面的文化取向362

17.5.1企业范围内的数字管理362

17.5.2对复杂的关键性能指标存在更多的信赖363

17.5.3行为是新的应用大户363

17.5.4封装应用达到顶峰364

17.5.5仍然需要应用集成364

17.5.6采购数据仓库需要进行审慎的风险评估365

17.6结束语366

术语表367