SQL Server 2000 数据挖掘技术指南

SQL Server 2000 数据挖掘技术指南
作 者: Claude Seidman 刘艺
出版社: 机械工业出版社
丛编项: 微软公司核心技术书库
版权说明: 本书为公共版权或经版权方授权,请支持正版图书
标 签: Sever
ISBN 出版时间 包装 开本 页数 字数
未知 暂无 暂无 未知 0 暂无

作者简介

  刘艺海军工程大学副教授,知名计算机技术作家。刘艺,海军工程大学副教授,知名计算机技术作家。著有《Delphi模式编程》等专著10部,翻译《计算机科学导论》等外国著名计算机教材4部。与人合著的重点大学计算机教材《信息安全学》荣获教育部推荐研究生教材。另外,主持的多个科研项目曾在军内获奖。“许多人往往把软件编程和软件开发混为一谈,实际上软件编程和开发有着本质区别。编程是基础,开发是目标。如果要想真正成为项目主管,你除了要以编程水平服人,更要站在系统开发的高度,整体把握解决方案,处理好系统、模块及代码间的关系。”>>更多作品

内容简介

本书讲述了数据挖掘及其基础理论,并通过两个数据库实例介绍如何建立数据挖掘模型。主要内容包括:数据挖掘介绍、数据挖掘方法、数据挖掘应用编程等等。本书内容全面、深入浅出,集学术性和实用性于一体,适用于从事数据挖掘的IT工作者。

图书目录

第一部分 数据挖掘介绍

第1章 了解数据挖掘 1

1.1 什么是数据挖掘 1

1.2 为何使用数据挖掘 2

1.3 当前数据挖掘是如何使用的 3

1.4 术语定义 4

1.5 数据挖掘方法 5

1.6 微软数据挖掘概述 6

1.6.1 数据挖掘与OLAP 7

1.6.2 数据挖掘模型 7

1.6.3 数据挖掘算法 7

1.6.4 在数据挖掘中使用微软

SQL Server语法 9

1.7 本章小结 9

第2章 微软SQL Server Analysis Services

体系结构 10

2.1 OLAP介绍 10

2.1.1 MOLAP 12

2.1.2 ROLAP 12

2.1.3 HOLAP 13

2.2 服务器结构体系结构 14

2.3 客户机结构体系结构 15

2.3.1 PivotTable Service 15

2.3.2 OLE DB 16

2.3.3 决策支持对象 17

2.3.4 多维表达式 17

2.3.5 预测连接 18

2.4 本章小结 18

第3章 数据存储模型 19

3.1 为何数据挖掘需要一个数据仓库 19

3.2 基于OLTP数据的报表可能对

性能造成威胁 22

3.3 用于数据挖掘的数据仓库体系结构 23

3.3.1 由OLTP数据创建数据仓库 24

3.3.2 为挖掘而优化数据 26

3.3.3 数据挖掘物理结构 30

3.4 关系型数据仓库 32

3.4.1 关系型数据存储的优点 32

3.4.2 为数据挖掘创建支持表 33

3.5 OLAP立方体 33

3.5.1 数据挖掘如何使用OLAP结构 33

3.5.2 OLAP存储的优点 34

3.5.3 何时OLAP不适合数据挖掘 36

3.6 本章小结 36

第4章 数据挖掘的方法 37

4.1 直接数据挖掘 37

4.2 间接数据挖掘 37

4.2.1 数据挖掘与统计学 38

4.2.2 从历史数据中学习 42

4.2.3 预测未来 43

4.3 数据挖掘模型的训练 45

4.4 本章小结 48

第二部分 数据挖掘方法

第5章 微软决策树 49

5.1 创建模型 49

5.2 使模型可视化 63

5.2.1 Dependency Network Browser 67

5.2.2 深入决策树算法 71

5.3 如何推导预测结果 81

5.3.1 导航树 81

5.3.2 导航与规则 83

5.3.3 何时使用决策树 84

5.4 本章小结 84

第6章 使用OLAP创建决策树 85

6.1 创建模型 85

6.1.1 选择源的类型 85

6.1.2 选择源立方体和数据挖掘技术 86

6.1.3 选择实例 87

6.1.4 选择预测实体 88

6.1.5 选择训练数据 89

6.1.6 选择维和虚拟立方体 90

6.1.7 完成数据挖掘模型 91

6.2 OLAP挖掘模型编辑器 93

6.2.1 内容细节面板 93

6.2.2 结构面板 93

6.2.3 预测树列表 94

6.3 使用OLAP数据挖掘模型分析数据 94

6.3.1 使用生成的虚拟立方体 95

6.3.2 使用生成的维 96

6.4 本章小结 99

第7章 微软聚类 100

7.1 分类 101

7.2 分类的作用 101

7.3 聚类是间接数据挖掘技术 101

7.4 聚类是如何工作的 102

7.4.1 算法概述 102

7.4.2 K-Means聚类算法 102

7.4.3 何谓准确度量 105

7.4.4 聚类要素 105

7.4.5 度量“接近程度” 106

7.5 何时使用聚类 108

7.5.1 使关系可视化 108

7.5.2 使异常数据更醒目 108

7.5.3 为其他数据挖掘工作创建样本 109

7.5.4 聚类的弱点 109

7.6 使用聚类创建数据挖掘模型 110

7.6.1 选择源类型 110

7.6.2 为数据挖掘模型选择表 111

7.6.3 选择数据挖掘技术 112

7.6.4 编辑连接 112

7.6.5 为数据挖掘选择实例的关键列 112

7.6.6 选择用于输入的和可预测的列 113

7.7 查看模型 114

7.7.1 聚类节点的组织结构 115

7.7.2 聚类节点的排序 116

7.8 分析数据 116

7.9 本章小结 117

第三部分 数据挖掘应用编程

第8章 利用微软数据转换服务 119

8.1 什么是DTS 119

8.2 DTS任务 120

8.2.1 转换 120

8.2.2 批录入 121

8.2.3 数据驱动查询 121

8.2.4 执行包 121

8.3 连接 124

8.3.1 源 124

8.3.2 配置连接 125

8.4 DTS包工作流程 125

8.4.1 DTS包的流程控制 125

8.4.2 优先权约束 126

8.5 DTS设计器 126

8.5.1 打开DTS设计器 127

8.5.2 保存DTS包 127

8.6 dtsrun实用程序 129

8.7 用DTS建立数据挖掘模型 131

8.7.1 SQL Server环境准备 132

8.7.2 创建包 136

8.8 本章小结 158

第9章 使用决策支持对象 159

9.1 脚本语言与VB编程 159

9.1.1 Server对象 161

9.1.2 Database 对象 167

9.2 用DSO创建关系数据挖掘模型 169

9.3 用DSO创建OLAP数据挖掘模型 178

9.3.1 DataSource对象 181

9.3.2 数据挖掘模型 181

9.4 添加新的数据源 181

9.5 Analysis服务器角色 183

9.5.1 数据挖掘模型角色 183

9.5.2 添加一个新的数据挖掘模型角色 183

9.6 本章小结 184

第10章 理解数据挖掘结构 185

10.1 数据挖掘模型实例的结构 185

10.2 使用程序代码来浏览数据挖掘模型 185

10.3 使用模式行集 190

10.3.1 MINING_MODELS模式行集 190

10.3.2 MINING_COLUMNS模式行集 195

10.3.3 MINING_MODEL_CONTENT

模式行集 201

10.3.4 MINING_SERVICES 模式行集 204

10.3.5 SERVICE_PARAMETERS

模式行集 206

10.3.6 MODEL_CONTENT_PMML

模式行集 208

10.4 本章小结 209

第11章 使用PivotTable Service进行

数据挖掘 210

11.1 重新分配组件 211

11.2 安装和注册组件 211

11.2.1 文件位置 212

11.2.2 安装注册设置 213

11.2.3 重新分配安装程序 213

11.3 连接到PivotTable Service 214

11.3.1 使用PivotTable Service连接到

Analysis Services 214

11.3.2 使用HTTP连接到

Analysis Services 216

11.4 创建本地数据挖掘模型 217

11.4.1 本地挖掘模型的存储 219

11.4.2 SELECT INTO语句 221

11.4.3 INSERT INTO语句 221

11.4.4 OPENROWSET语法 222

11.4.5 嵌套表和SHAPE语句 224

11.5 在数据挖掘中使用XML 225

11.6 本章小结 230

第12章 数据挖掘查询 231

12.1 预测查询组件 231

12.1.1 基本的预测查询 231

12.1.2 指定测试实例源 231

12.1.3 指定列 233

12.1.4 PREDICTION JOIN子句 233

12.1.5 使用函数作为列 237

12.1.6 使用表值作为列 237

12.1.7 WHERE子句 239

12.1.8 预测函数 239

12.1.9 Predict 239

12.1.10 PredictProbability 240

12.1.11 PredictSupport 240

12.1.12 PredictVariance 241

12.1.13 PredictStdev 241

12.1.14 PredictProbabilityVariance 241

12.1.15 PredictProbabilityStdev 241

12.1.16 PredictHistogram 241

12.1.17 TopCount 244

12.1.18 TopSum 244

12.1.19 TopPercent 244

12.1.20 RangeMin 245

12.1.21 RangeMid 245

12.1.22 RangeMax 245

12.1.23 PredictScore 245

12.1.24 PredictNodeId 245

12.2 带聚类模型的预测查询 245

12.2.1 Cluster 246

12.2.2 ClusterProbability 246

12.2.3 ClusterDistance 247

12.3 使用DTS来运行预测查询 247

12.4 本章小结 252

附 录

附录A 回归分析 253

附录B 术语表 271