SAS数据挖掘与分析项目实战

SAS数据挖掘与分析项目实战
作 者: 尚涛
出版社: 中国铁道出版社
丛编项:
版权说明: 本书为公共版权或经版权方授权,请支持正版图书
标 签: 暂缺
ISBN 出版时间 包装 开本 页数 字数
未知 暂无 暂无 未知 0 暂无

作者简介

  尚涛,毕业于上海交通大学数学系,拥有数学专业硕士学位,研究方向为数据挖掘及机器学习领域,曾任职于支付平台、平安科技、易方达基金,现任职于南方基金,专注于信用风险评分、精准营销、推荐系统、文本挖掘等领域数据挖掘项目的研发工作以及企业的数据化运营落地工作,拥有超过10年数据挖掘和优化建模的经验,以及多年使用SPSS、SAS、R、Python等建模软件的经验。在从业经历中,多次为所在公司的业务方提供数据挖掘技术服务,成功实施了众多深受好评的数据挖掘项目,取得了较好的业务价值。

内容简介

本书讲述了在实际运营中核心的数据挖掘分析案例,为读者重点展示了SAS在精准营销、客户流失预警、客户分群、广告点击、信用卡欺诈、信用风险评分等领域中的具体应用。 本书分为16章,以数据挖掘基础知识介绍开始,循序渐进地讲述了Kaggle数据科学社区调查数据分析、考察汽车耗油量与里程数的关系分析、影响汽车销售的关键因子分析、健身运动中耗氧量回归分析、旅客量预测分析、客户群分类判别分析、销售公司的客户分群、员工离职预测、广告点击率预测、产品精准营销模型、电信客户流失预警、银行贷款用户风险分析、信用风险评分卡的开发以及信用卡反欺诈预测模型等案例。后一章介绍了与数据挖掘项目中的时间成本有较大关系的SAS数据清洗的相关技术。 本书案例丰富,实用性较强,特别适合从事数据挖掘、统计建模、机器学习、商业分析、运营分析等工作的人员使用,也可作为数学、统计学、金融管理、计算机等专业的学生学习SAS数据挖掘应用的参考书籍。

图书目录

第1章数据挖掘知识介绍

11数据挖掘算法简介

111分类

112聚类

113关联

114预测

12分类模型的相关概念

121数据说明

122混淆矩阵

123ROC曲线和AUC面积

124提升(Lift)

125KS曲线

13数据挖掘过程中关键问题处理

131数据准备

132定义变量及数据抽样

133变量选择

134缺失值处理

135模型比较

14SAS STAT介绍

第2章Kaggle数据科学社区调查分析

21描述性统计分析的主要内容

211数据的频数分析

212数据的集中趋势分析

213数据的离散程度分析

214数据的分布

215绘制统计图

22SAS描述性分析过程介绍

221PROC FREQ过程

222PROC MEANS过程

223PROC UNIVARIATE过程

23调查数据说明

24数据探索

25Kaggle社区用户画像分析

251人员属性

252工作属性

253技能属性

254学习属性

第3章考察汽车耗油量与里程数的关系

31项目背景

32非线性回归简介

33非线性回归过程说明

34广义线性模型过程

35数据文件说明

36数据探索

37模型建立

38结果分析

第4章影响汽车销售的关键因子分析

41数据说明

42因子分析的基本原理

421因子分析模型

422因子旋转

423计算因子得分

43因子分析的步骤和SAS过程

431因子分析的步骤

432FACTOR过程说明

44模型开发及结果解释

45主成分分析和因子分析的区别

第5章健身运动中耗氧量回归分析

51线性回归模型

52REG过程

521过程选项

522MODEL语句选项

523关键字选项

524PLOT语句选项

53数据说明

54相关性分析

55回归分析

56逐步回归

561逐步回归过程

562利用逐步回归选择变量

第6章旅客量预测分析

61项目背景

62数据文件说明

63平稳随机过程概述

631自回归模型

632滑动平均模型

633自回归滑动平均模型

64ARMA模型的识别

641基于相关函数的定阶方法

642利用信息准则法定阶

65模型参数的估计

66时间序列的分析步骤

67SAS系统的ARIMA过程

671ARIMA语句选项

672IDENTIFY语句选项

673ESTIMATE语句选项

674FORECAST语句选项

675ARIMA建模过程

68数据探索

681平稳性检验

682序列变换

69自相关函数检验

610模型参数估计

611预测

第7章客户群分类判别分析

71业务背景及数据说明

72判别分析的数学原理

73判别分析的SAS过程

731DISCRIM过程

732CANDISC过程

733STEPDISC过程

74数据探索

75客户群判别模型建立

76模型应用

第8章销售公司的客户分群分析

81项目背景

811客户细分的概念

812客户细分模型

813客户细分模型的基本流程

814细分方法介绍

82聚类分析的数学原理

821聚类的数学原理

822距离和相似距离

823聚类方法

824聚类数的确定

825聚类分析步骤

83SAS中的聚类过程

831Cluster系统聚类过程

832Fastclus快速聚类过程

833Varclus方差聚类过程

834Tree聚类树型输出过程

84数据文件说明

85数据探索

851变量衍生

852变量标准化

853变量相关性分析

86模型建立

87客户画像分析

88模型应用

第9章员工离职预测

91项目背景

92数据说明

93数据探索

94数据建模

941变量相关分析

942决策树建模

95模型评估与应用

第10章广告点击率预测

101业务背景

1011网络广告发展情况

1012计算广告学

102数据说明

103数据不平衡的处理方式

1031收集更多的数据

1032改变模型性能评价指标

1033重新对样本进行采样

104模型开发与评估

1041样本欠抽样

1042模型开发

1043模型评估

105CTR模型的发展脉络

第11章产品精准营销推荐

111项目背景

1111业务背景

1112数据说明

1113项目目标

112数据探索

1121变量描述性统计分析

1122变量缺失值处理

1123变量衍生处理

113模型建设

1131欠抽样

1132数据集分割

1133模型开发

1134模型评估

114模型应用

1141产品自动化推荐系统

1142易受到市场环境等各种因素的影响

1143人群特征漂移需要不断优化模型

第12章通信客户流失预警模型

121项目背景

1211客户流失分析要解决的问题

1212分析客户流失的类型

1213如何进行客户流失分析

122数据说明

123因变量定义

124样本抽取

125数据探索

126模型开发

1261变量衍生

1262变量选择

1263相关性处理

1264模型结果

127模型评估

1271开发样本上的模型性能

1272验证样本上的模型性能

128模型应用

第13章银行贷款用户风险分析

131案例背景

132因变量定义

133样本抽取

134数据探索

1341为什么要进行数据探索

1342数据分布情况

135模型建设

1351变量衍生

1352变量选择

1353共线性处理

1354模型结果

136模型性能评估

1361开发样本上的模型性能

1362验证样本上的模型性能

137模型应用

第14章信用风险评分卡开发

141信用评分模型简介

142信用卡模型的开发过程

143案例背景及项目目标确定

1431项目背景说明

1432确定项目目标

144数据获取

145数据质量检验

146项目参数设定

1461排除规则确定

1462表现和观察窗口

1463确定“坏”的定义

1464滚动率分析

1465客户分群

147数据探索

1471数据分布分析

1472缺失值的处理

1473极端值的处理

148模型开发

1481证据权重(WOE)

1482信息值(IV)

1483变量选择

1484变量分组

1485变量相关性分析

1486模型迭代开发

149模型评估

1491混淆矩阵

1492KS统计量

1493ROC曲线

1410评分卡创建

14101评分尺度变换

14102变量分值分配

1411评分卡实施

1412监测与报告

1413拒绝推断

1414运用评分卡需要注意的事项

第15章信用卡反欺诈预测模型

151信用卡欺诈概述

1511信用卡欺诈的种类

1512智能反欺诈管理

1513其他反欺诈技术

152案例背景

153数据探索

154模型开发

1541不使用分层抽样策略

1542使用分层抽样策略

155总结

第16章SAS数据清洗技术

161数据清洗简介

1611数据清洗

1612数据探索

162数据导入

1621读入数据到SAS系统的方法

1622指定数据文件的位置

1623读入由空格分隔的原始数据

1624读入列对齐的原始数据

1625读入非标准格式的数据

1626读入一个观测占据多行的数据文件

1627读入原数据文件的一部分

1628IMPORT过程读入分隔数据文件

163数据格式处理

164SAS函数

1641字符函数

1642数值函数

165缺失值处理

166数据抽样

1661等比例分层抽样

1662不等比例分层抽样

1663分层抽样