高维数据分析预处理技术

高维数据分析预处理技术
作 者: 祝琴
出版社: 社会科学文献出版社
丛编项:
版权说明: 本书为公共版权或经版权方授权,请支持正版图书
标 签: 计算机/网络 数据仓库与数据挖掘 数据库
ISBN 出版时间 包装 开本 页数 字数
未知 暂无 暂无 未知 0 暂无

作者简介

  祝琴,女,南昌大学工业自动化专业本科毕业;南昌大学控制理论与控制专业硕士毕业;北京科技大学管理科学与工程专业博士毕业并获博士学位。现为南昌大学管理学院副教授,主要从事管理科学与工程专业的教学与科研工作。

内容简介

作者针对高维稀疏数据挖掘问题,从数据预处理的角度,研究对象—属性空间的划分问题,其目的是把所研究的数据挖掘空间分解为若干规模较小的对象—属性空间,从而降低实际数据挖掘的难度。本书针对高维稀疏数据挖掘问题,以降低数据挖掘规模,建立了体系完整的数据预处理理论和方法,具有很强的理论意义和实际应用前景。

图书目录

第1章 引言/1

第2章 文献综述/5

  2.1 知识发现与数据挖掘/5

  2.2 聚类分析/13

  2.3 数据挖掘所面临的挑战/24

  2.4 高维数据/27

  2.5 维度约简/31

  2.6 高维数据聚类/38

  2.7 本章小结/43

第3章 基于排序的高属性维稀疏数据聚类方法/44

  3.1 高维稀疏数据/44

  3.2 高属性维聚类问题描述/47

  3.3 经典高属性维稀疏数据聚类CABOSFV方法分析/54

  3.4 基于排序的CABOSFV方法——CABOSFVABS方法/59

  3.5 本章小结/68

第4章 对象—属性空间分割的两阶段联合聚类方法/70

  4.1 具有高维稀疏特征的对象—属性空间分割问题的提法/70

  4.2 传统对象—属性空间分割方法基于内聚度方法/71

  4.3 联合聚类方法/75

  4.4 两阶段联合聚类方法(MTPCCA)/86

  4.5 本章小结/96

第5章 对象—属性子空间重叠区域的归属问题/98

  5.1 问题描述及相关研究工作/98

  5.2 对象—属性子空间的边缘重叠区域归属方法——OASEDA方法/108

  5.3 本章小结/126

第6章 对象—属性子空间优化/128

  6.1 高维稀疏特征的对象—属性非关联子空间/130

  6.2 剔除非关联子空间RNASAUBSC方法/131

  6.3 RNASAUBSC方法算例/136

  6.4 RNASAUBSC方法应用/138

  6.5 本章小结/141

第7章 结论/142

参考文献/145

后 记/165

图目录

图1-1 本书结构图/4

图2-1 数据库知识发现的过程图/6

图2-2 聚结型层次聚类和分解型层次聚类法的比较/17

图2-3 高维数据聚类方法的分类图/39

图3-1 CABOSFV聚类方法的两层结构图/58

图4-1 传统聚类与联合聚类/76

图4-2 行和列均独立的联合聚类/78

图4-3 格子结构的独立联合聚类/79

图4-4 独立行的联合聚类/79

图4-5 独立列的联合聚类/80

图4-6 树型的没有重叠独立的联合聚类/80

图4-7 没有独立、没有重叠的联合聚类/81

图4-8 层次结构重叠的联合聚类/81

图4-9 6个对象10种属性的对象—属性空间图/90

图4-10 **阶段聚类分割后的对象—属性空间图/92

图4-11 两阶段联合聚类识别的对象—属性子空间图/92

图4-12 30个对象、45种属性的对象—属性空间图/95

图4-13 基于内聚度分割方法识别的对象—属性子空间图/95

图4-14 基于MTPCCA方法识别的对象—属性子空间图/96

图5-1 子空间中的交叉重叠区域图/99

图5-2 交叉重叠区域中零属性值现象/99

图5-3 聚类边界不准现象/100

图5-4 扩展1/2网格图/104

图5-5 同位置点距离计算情况图/104

图5-6 聚类边界点、噪声、孤立点图/104

图5-7 边界效应引起聚类效果不好图/107

图5-8 受力分析图/109

图5-9 子空间的交叉重叠区域分块图/116

图5-10 8个对象、10种属性的对象—属性空间图/121

图5-11 MTPCCA方法识别的对象—属性子空间图(一)/121

图5-12 8个对象、10种属性的对象—属性子空间图/122

图5-13 26个客户订购45种产品的对象—属性空间图/124

图5-14 MTPCCA方法识别的对象—属性子空间图(二)/125

图5-15 根据OASEDA方法得出的对象—属性子空间图/126

图6-1 8个对象、10种属性对应的对象—属性子空间图/129

图6-2 对象—属性稀疏子空间图/130

图6-3 对象—属性非关联子空间图/132

图6-4 RNASAUBSC方法运算过程图/133

图6-5 4个对象、5种属性对象—属性空间的优化过程图/135

图6-6 30个对象、45种属性的对象—属性子空间图/137

图6-7 30个对象、45种属性优化后的对象—属性子空间图/137

图6-8 8个客户订购10种产品的对象—属性子空间图/140

图6-9 对象—属性子空间C的优化过程图/140

表目录

表3-1 高维稀疏数据/46

表3-2 高维稀疏的数据归一化/46

表3-3 高维稀疏二态数据表/47

表3-4 二态变量取值统计/49

表3-5 对象数据例表/51

表3-6 分类变量转化为不对称二态变量/52

表3-7 6个客户订购8种产品的稀疏特征表/55

表3-8 6个客户订购8种产品情况的压缩存储/57

表3-9 15个客户对48种产品的订购情况/64

表3-10 CABOSFV方法聚类结果/65

表3-11 CABOSFVABS方法聚类结果/67

表4-1 所包含的数值都相等的联合聚类/76

表4-2 同列包含数值相等的联合聚类/77

表4-3 同行包含数值相等的联合聚类/77

表4-4 加法模型/77

表4-5 乘法模型/77

表4-6 演变趋势一致的联合聚类/78

表4-7 8个客户订购10种产品的稀疏特征表(一)/89

表4-8 8个客户订购10种产品的压缩存储表/89

表4-9 30个对象、45种属性取值的情况表/93

表5-1 8个客户订购10种产品的情况表/119

表5-2 8个客户订购10种产品的归一化结果表/120

表5-3 8个客户订购10种产品的稀疏特征值表/120

表5-4 26个客户订购45种产品的情况/123

表6-1 8个客户订购10种产品的稀疏特征表(二)/129

表6-2 2个客户订购7种产品的稀疏特征表/133

表6-3 4个客户订购5种产品的稀疏特征表/134

表6-4 8个客户订购10种产品的统计表/138

表6-5 8个客户订购10种产品数量归一化的数据表/139

表6-6 8个客户订购10种产品的稀疏特征表(三)/139