数据挖掘与数据化运营实战:思路、方法、技巧与应用

数据挖掘与数据化运营实战:思路、方法、技巧与应用
作 者: 卢辉
出版社: 机械工业出版社
丛编项:
版权说明: 本书为公共版权或经版权方授权,请支持正版图书
标 签: 暂缺
ISBN 出版时间 包装 开本 页数 字数
未知 暂无 暂无 未知 0 暂无

作者简介

  卢辉,阿里巴巴商业智能部数据分析专家,从事数据库营销和数据化运营分析多年,曾在不同行业以商务拓展(BD)经理、项目经理、市场营销部经理、高级咨询顾问、数据分析专家的身份亲历大量的数据库营销和互联网行业数据化运营应用项目。目前在阿里巴巴主要从事数据化运营的数据挖掘规划、项目管理、实施,拥有比较丰富的互联网行业数据化运营项目经验。关注数据化运营的规划和数据挖掘项目的管理。

内容简介

《数据挖掘与数据化运营实战:思路、方法、技巧与应用》是目前有关数据挖掘在数据化运营实践领域比较全面和系统的著作,也是诸多数据挖掘书籍中为数不多的穿插大量真实的实践应用案例和场景的著作,更是创造性地针对数据化运营中不同分析挖掘课题类型,推出一一对应的分析思路集锦和相应的分析技巧集成,为读者提供“菜单化”实战锦囊的著作。作者结合自己数据化运营实践中大量的项目经验,用通俗易懂的“非技术”语言和大量活泼生动的案例,围绕数据分析挖掘中的思路、方法、技巧与应用,全方位整理、总结、分享,帮助读者深刻领会和掌握“以业务为核心,以思路为重点,以分析技术为辅佐”的数据挖掘实践应用宝典。《数据挖掘与数据化运营实战:思路、方法、技巧与应用》共19章,分为三个部分:基础篇(第1~4章)系统介绍了数据分析挖掘和数据化运营的相关背景、数据化运营中“协调配合”的核心,以及实践中常见分析项目类型;实战篇(第6~13章)主要介绍实践中常见的分析挖掘技术的实用技巧,并对大量的实践案例进行了全程分享展示;思想意识篇(第5章,第14~19章)主要是有关数据分析师的责任、意识、思维的培养和提升的总结和探索,以及一些有效的项目质控制度和经典的方法论介绍。

图书目录

目  录

推荐序

前言

第1章 什么是数据化运营 / 1

1.1 现代营销理论的发展历程 / 2

1.1.1 从4P到4C / 2

1.1.2 从4C到3P3C / 3

1.2 数据化运营的主要内容 / 5

1.3 为什么要数据化运营 / 7

1.4 数据化运营的必要条件 / 8

1.4.1 企业级海量数据存储的实现 / 8

1.4.2 精细化运营的需求 / 10

1.4.3 数据分析和数据挖掘技术的有效应用 / 11

1.4.4 企业决策层的倡导与持续支持 / 11

1.5 数据化运营的新现象与新发展 / 12

1.6 关于互联网和电子商务的最新数据 / 14

第2章 数据挖掘概述 / 15

2.1 数据挖掘的发展历史 / 16

2.2 统计分析与数据挖掘的主要区别 / 16

2.3 数据挖掘的主要成熟技术以及在数据化运营中的主要应用 / 18

2.3.1 决策树 / 18

2.3.2 神经网络 / 19

2.3.3 回归 / 21

2.3.4 关联规则 / 22

2.3.5 聚类 / 23

2.3.6 贝叶斯分类方法 / 24

2.3.7 支持向量机 / 25

2.3.8 主成分分析 / 26

2.3.9 假设检验 / 27

2.4 互联网行业数据挖掘应用的特点 / 28

第3章 数据化运营中常见的数据分析项目类型 / 30

3.1 目标客户的特征分析 / 31

3.2 目标客户的预测(响应、分类)模型 / 32

3.3 运营群体的活跃度定义 / 33

3.4 用户路径分析 / 34

3.5 交叉销售模型 / 35

3.6 信息质量模型 / 37

3.7 服务保障模型 / 39

3.8 用户(买家、卖家)分层模型 / 40

3.9 卖家(买家)交易模型 / 44

3.10 信用风险模型 / 44

3.11 商品推荐模型 / 45

3.11.1 商品推荐介绍 / 45

3.11.2 关联规则 / 45

3.11.3 协同过滤算法 / 50

3.11.4 商品推荐模型总结 / 54

3.12 数据产品 / 55

3.13 决策支持 / 56

第4章 数据化运营是跨专业、跨团队的协调与合作 / 57

4.1 数据分析团队与业务团队的分工和定位 / 58

4.1.1 提出业务分析需求并且能胜任基本的数据分析 / 58

4.1.2 提供业务经验和参考建议 / 60

4.1.3 策划和执行精细化运营方案 / 60

4.1.4 跟踪运营效果、反馈和总结 / 61

4.2 数据化运营是真正的多团队、多专业的协同作业 / 62

4.3 实例示范数据化运营中的跨专业、跨团队协调合作 / 62

第5章 分析师常见的错误观念和对治的管理策略 / 67

5.1 轻视业务论 / 68

5.2 技术万能论 / 69

5.3 技术尖端论 / 71

5.4 建模与应用两段论 / 72

5.5 机器万能论 / 73

5.6 幸福的家庭都是相似的,不幸的家庭各有各的不幸 / 74

第6章 数据挖掘项目完整应用案例演示 / 76

6.1 项目背景和业务分析需求的提出 / 77

6.2 数据分析师参与需求讨论 / 78

6.3 制定需求分析框架和分析计划 / 79

6.4 抽取样本数据、熟悉数据、数据清洗和摸底 / 81

6.5 按计划初步搭建挖掘模型 / 81

6.6 与业务方讨论模型的初步结论,提出新的思路和模型优化方案 / 83

6.7 按优化方案重新抽取样本并建模,提炼结论并验证模型 / 84

6.8 完成分析报告和落地应用建议 / 86

6.9 制定具体的落地应用方案和评估方案 / 86

6.10 业务方实施落地应用方案并跟踪、评估效果 / 86

6.11 落地应用方案在实际效果评估后,不断修正完善 / 88

6.12 不同运营方案的评估、总结和反馈 / 88

6.13 项目应用后的总结和反思 / 89

第7章 数据挖掘建模的优化和限度 / 90

7.1 数据挖掘模型的优化要遵循有效、适度的原则 / 91

7.2 如何有效地优化模型 / 92

7.2.1 从业务思路上优化 / 92

7.2.2 从建模的技术思路上优化 / 94

7.2.3 从建模的技术技巧上优化 / 95

7.3 如何思考优化的限度 / 96

7.4 模型效果评价的主要指标体系 / 96

7.4.1 评价模型准确度和精度的系列指标 / 97

7.4.2 ROC曲线 / 99

7.4.3 KS值 / 100

7.4.4 Lift值 / 102

7.4.5 模型稳定性的评估 / 104

第8章 常见的数据处理技巧 / 105

8.1 数据的抽取要正确反映业务需求 / 106

8.2 数据抽样 / 107

8.3 分析数据的规模有哪些具体的要求 / 108

8.4 如何处理缺失值和异常值 / 109

8.4.1 缺失值的常见处理方法 / 109

8.4.2 异常值的判断和处理 / 111

8.5 数据转换 / 112

8.5.1 生成衍生变量 / 113

8.5.2 改善变量分布的转换 / 113

8.5.3 分箱转换 / 114

8.5.4 数据的标准化 / 115

8.6 筛选有效的输入变量 / 115

8.6.1 为什么要筛选有效的输入变量 / 116

8.6.2 结合业务经验进行先行筛选 / 116

8.6.3 用线性相关性指标进行初步筛选 / 117

8.6.4 R平方 / 118

8.6.5 卡方检验 / 119

8.6.6 IV和WOE / 120

8.6.7 部分建模算法自身的筛选功能 / 121

8.6.8 降维的方法 / 122

8.6.9 最后的准则 / 122

8.7 共线性问题 / 123

8.7.1 如何发现共线性 / 123

8.7.2 如何处理共线性 / 123

第9章 聚类分析的典型应用和技术小窍门 / 125

9.1 聚类分析的典型应用场景 / 126

9.2 主要聚类算法的分类 / 127

9.2.1 划分方法 / 127

9.2.2 层次方法 / 128

9.2.3 基于密度的方法 / 128

9.2.4 基于网格的方法 / 129

9.3 聚类分析在实践应用中的重点注意事项 / 129

9.3.1 如何处理数据噪声和异常值 / 129

9.3.2 数据标准化 / 130

9.3.3 聚类变量的少而精 / 131

9.4 聚类分析的扩展应用 / 132

9.4.1 聚类的核心指标与非聚类的业务指标相辅相成 / 132

9.4.2 数据的探索和清理工具 / 132

9.4.3 个性化推荐的应用 / 133

9.5 聚类分析在实际应用中的优势和缺点 / 134

9.6 聚类分析结果的评价体系和评价指标 / 135

9.6.1 业务专家的评估 / 135

9.6.2 聚类技术上的评价指标 / 136

9.7 一个典型的聚类分析课题的案例分享 / 137

9.7.1 案例背景 / 137

9.7.2 基本的数据摸底 / 137

9.7.3 基于用户样本的聚类分析的初步结论 / 138

第10章 预测响应(分类)模型的典型应用和技术小窍门 / 140

10.1 神经网络技术的实践应用和注意事项 / 141

10.1.1 神经网络的原理和核心要素 / 141

10.1.2 神经网络的应用优势 / 143

10.1.3 神经网络技术的缺点和注意事项 / 143

10.2 决策树技术的实践应用和注意事项 / 144

10.2.1 决策树的原理和核心要素 / 144

10.2.2 CHAID算法 / 145

10.2.3 CART算法 / 145

10.2.4 ID3算法 / 146

10.2.5 决策树的应用优势 / 146

10.2.6 决策树的缺点和注意事项 / 147

10.3 逻辑回归技术的实践应用和注意事项 / 148

10.3.1 逻辑回归的原理和核心要素 / 148

10.3.2 回归中的变量筛选方法 / 150

10.3.3 逻辑回归的应用优势 / 151

10.3.4 逻辑回归应用中的注意事项 / 151

10.4 多元线性回归技术的实践应用和注意事项 / 152

10.4.1 线性回归的原理和核心要素 / 152

10.4.2 线性回归的应用优势 / 153

10.4.3 线性回归应用中的注意事项 / 153

10.5 模型的过拟合及对策 / 154

10.6 一个典型的预测响应模型的案例分享 / 156

10.6.1 案例背景 / 156

10.6.2 基本的数据摸底 / 156

10.6.3 建模数据的抽取和清洗 / 158

10.6.4 初步的相关性检验和共线性排查 / 159

10.6.5 潜在自变量的分布转换 / 160

10.6.6 自变量的筛选 / 161

10.6.7 响应模型的搭建与优化 / 162

10.6.8 冠军模型的确定和主要的分析结论 / 162

10.6.9 基于模型和分析结论基础上的运营方案 / 164

10.6.10 模型落地应用效果跟踪反馈 / 165

第11章 用户特征分析的典型应用和技术小窍门 / 166

11.1 用户特征分析所适用的典型业务场景 / 167

11.1.1 寻找目标用户 / 167

11.1.2 寻找运营的抓手 / 168

11.1.3 用户群体细分的依据 / 169

11.1.4 新品开发的线索和依据 / 169

11.2 用户特征分析的典型分析思路和分析技术 / 170

11.2.1 3种划分的区别 / 170

11.2.2 RFM / 171

11.2.3 聚类技术的应用 / 172

11.2.4 决策树技术的应用 / 173

11.2.5 预测(响应)模型中的核心自变量 / 173

11.2.6 假设检验的应用 / 174

11.3 特征提炼后的评价体系 / 174

11.4 用户特征分析与用户预测模型的区别和联系 / 175

11.5 用户特征分析案例 / 176

第12章 运营效果分析的典型应用和技术小窍门 / 177

12.1 为什么要做运营效果分析 / 178

12.2 统计技术在数据化运营中最重要最常见的应用 / 179

12.2.1 为什么要进行假设检验 / 179

12.2.2 假设检验的基本思想 / 179

12.2.3 T检验概述 / 180

12.2.4 两组独立样本T检验的假设和检验 / 181

12.2.5 两组独立样本的非参数检验 / 182

12.2.6 配对差值的T检验 / 183

12.2.7 配对差值的非参数检验 / 184

12.2.8 方差分析概述 / 186

12.2.9 单因素方差分析 / 187

12.2.10 多个样本组的非参数检验 / 190

12.2.11 卡方检验 / 190

12.2.12 控制变量的方法 / 191

12.2.13 AB Test / 192

第13章 漏斗模型和路径分析 / 193

13.1 网络日志和布点 / 194

13.1.1 日志布点 / 195

13.1.2 日志采集 / 195

13.1.3 日志解析 / 195

13.1.4 日志分析 / 195

13.2 漏斗模型与路径分析的主要区别和联系 / 196

13.3 漏斗模型的主要应用场景 / 197

13.3.1 运营过程的监控和运营效率的分析与改善 / 197

13.3.2 用户关键路径分析 / 198

13.3.3 产品优化 / 198

13.4 路径分析的主要应用场景 / 198

13.5 路径分析的主要算法 / 199

13.5.1 社会网络分析方法 / 199

13.5.2 基于序列的关联分析 / 200

13.5.3 最朴素的遍历方法 / 201

13.6 路径分析案例的分享 / 203

13.6.1 案例背景 / 203

13.6.2 主要的分析技术介绍 / 203

13.6.3 分析所用的数据概况 / 203

13.6.4 主要的数据结论和业务解说 / 203

13.6.5 主要分析结论的落地应用跟踪 / 206

第14章 数据分析师对业务团队数据分析能力的培养 / 208

14.1 培养业务团队数据分析意识与能力的重要性 / 209

14.2 数据分析师在业务团队数据分析意识能力培养中的作用 / 210

14.3 数据分析师如何培养业务团队的数据分析意识和能力 / 210

14.4 数据分析师培养业务团队数据分析意识能力的案例分享 / 212

14.4.1  案例背景 / 212

14.4.2 过程描述 / 212

14.4.3 本项目的效果跟踪 / 214

第15章 换位思考 / 216

15.1 为什么要换位思考 / 217

15.2 从业务方的角度换位思考数据分析与挖掘 / 218

15.3 从同行的角度换位思考数据分析挖掘的经验教训 / 220

第16章 养成数据分析师的品质和思维模式 / 222

16.1 态度决定一切 / 223

16.1.1 信念 / 223

16.1.2 信心 / 224

16.1.3 热情 / 225

16.1.4 敬畏 / 226

16.1.5 感恩 / 227

16.2 商业意识是核心 / 228

16.2.1 为什么商业意识是核心 / 228

16.2.2 如何培养商业意识 / 229

16.3 一个基本的方法论 / 230

16.4 大胆假设,小心求证 / 231

16.5 20/80原理 / 233

16.6 结构化思维 / 233

16.7 优秀的数据分析师既要客观,又要主观 / 234

第17章 条条大道通罗马 / 236

17.1 为什么会条条大道通罗马 / 237

17.2 条条大道有侧重 / 238

17.3 自觉服从和积极响应 / 239

17.3.1 自觉服从 / 239

17.3.2 积极响应 / 240

17.4 具体示例 / 242

第18章 数据挖掘实践的质量保障流程和制度 / 243

18.1 一个有效的质量保障流程制度 / 244

18.1.1 业务需求的收集 / 245

18.1.2 评估小组评估需求的优先级 / 246

18.1.3 课题组的成立及前期摸底 / 247

18.1.4 向业务方提交正式课题(项目)计划书 / 247

18.1.5 数据分析挖掘的课题展开 / 248

18.1.6 向业务方提交结论报告及业务落地应用建议 / 248

18.1.7 课题(项目)的落地应用和效果监控反馈 / 248

18.2 质量保障流程制度的重要性 / 249

18.3 如何支持与强化质量保障流程制度 / 250

第19章 几个经典的数据挖掘方法论 / 251

19.1 SEMMA方法论 / 252

19.1.1 数据取样 / 253

19.1.2 数据探索 / 253

19.1.3 数据调整 / 253

19.1.4 模式化 / 254

19.1.5 评价 / 254

19.2 CRISP-DM方法论 / 254

19.2.1 业务理解 / 255

19.2.2 数据理解 / 256

19.2.3  数据准备 / 256

19.2.4 模型搭建 / 256

19.2.5 模型评估 / 256

19.2.6 模型发布 / 256

19.3 Tom Khabaza的挖掘9律 / 256