机器学习:实用案例解析

机器学习:实用案例解析
作 者: Drew Conway John Myles White 陈开江 刘逸哲 孟晓楠 译罗森林
出版社: 机械工业出版社
丛编项:
版权说明: 本书为公共版权或经版权方授权,请支持正版图书
标 签: 编程语言与程序设计 计算机与互联网
ISBN 出版时间 包装 开本 页数 字数
未知 暂无 暂无 未知 0 暂无

作者简介

  Drew Conway,机器学习专家,拥有丰富的数据分析、处理工作经验。目前主要利用数学、统计学和计算机技术研究国际关系、冲突和恐怖主义等。他曾作为研究员在美国情报和国防部门供职数年。他拥有纽约大学政治系博士学位,曾为多种杂志撰写文章,是机器学习领域的著名学者。John Myles White,机器学习专家,拥有丰富的数据分析、处理工作经验。目前主要从理论和实验的角度来研究人类如何做出决定,同时还是几个流行的R语言程序包的主要维护者,包括ProjectTemplate和log4r。他拥有普林斯顿大学哲学系博士学位,曾为多家技术杂志撰稿,发表过许多关于机器学习的论文,并在众多国际会议上发表演讲。译者介绍陈开江,新浪微博搜索部研发工程师,曾独立负责微博内容反垃圾系统、微博精选内容挖掘算法、自助客服系统(包括自动回复、主动挖掘、舆情监测)等项目,目前主要从事社交挖掘、推荐算法研究、机器学习、自然语言处理相关工作,研究兴趣是社交网络的个性化推荐。刘逸哲,阿里巴巴,CBU基础平台部搜索与推荐团队核心技术与query分析方向负责人,机器学习技术领域及圈子负责人。曾任中国雅虎相关性团队、自然语言处理团队算法工程师;AvePoint.inc开发工程师,从事企业级搜索引擎开发。研究兴趣是机器学习、自然语言处理及个性化推荐等算法在大规模数据上的应用。孟晓楠,一淘广告技术,阿里非搜索广告算法负责人,负责用户行为分析、建模与细分,RTB竞价算法,展示广告CTR预估与SEM优化。曾工作于网易杭州研究院,参与过分布式全文检索系统和网易博客产品的数据挖掘算法开发。研究兴趣是计算广告技术、机器学习、大数据技术、信息检索等。

内容简介

O’Reilly Media通过图书、杂志、在线服务、调查研究和会议等方式传播创新知识。自1978年开始,O’Reilly一直都是前沿发展的见证者和推动者。超级极客们正在开创着未来,而我们关注真正重要的技术趋势——通过放大那些“细微的信号”来刺激社会对新科技的应用。作为技术社区中活跃的参与者,O’Reilly的发展充满了对创新的倡导、创造和发扬光大。O’Reilly为软件开发人员带来革命性的“动物书”;创建第一个商业网站(GNN);组织了影响深远的开放源代码峰会,以至于开源软件运动以此命名;创立了Make杂志,从而成为DIY革命的主要先锋;公司一如既往地通过多种形式缔结信息与人的纽带。O’Reilly的会议和峰会集聚了众多超级极客和高瞻远瞩的商业领袖,共同描绘出开创新产业的革命性思想。作为技术人士获取信息的选择,O’Reilly现在还将先锋专家的知识传递给普通的计算机用户。无论是通过书籍出版,在线服务或者面授课程,每一项O’Reilly的产品都反映了公司不可动摇的理念——信息是激发创新的力量。

图书目录

前言 1

第1章 使用R语言 9

R与机器学习 10

第2章 数据分析 36

分析与验证 36

什么是数据 37

推断数据的类型 40

推断数据的含义 42

数值摘要表 43

均值、中位数、众数 44

分位数 46

标准差和方差 47

可视化分析数据 49

列相关的可视化 68

第3章 分类:垃圾过滤 77

非此即彼:二分类 77

漫谈条件概率 81

试写第一个贝叶斯垃圾分类器 82

第4章 排序:智能收件箱 97

次序未知时该如何排序 97

按优先级给邮件排序 98

实现一个智能收件箱 102

第5章 回归模型:预测网页访问量 128

回归模型简介 128

预测网页流量 142

定义相关性 152

第6章 正则化:文本回归 155

数据列之间的非线性关系:超越直线 155

避免过拟合的方法 164

文本回归 174

第7章 优化:密码破译 182

优化简介 182

岭回归 188

密码破译优化问题 193

第8章 PCA:构建股票市场指数 203

无监督学习 203

主成分分析 204

第9章 MDS:可视化地研究参议员相似性 212

基于相似性聚类 212

如何对美国参议员做聚类 219

第10章 kNN:推荐系统 229

k近邻算法 229

R语言程序包安装数据 235

第11章 分析社交图谱 239

社交网络分析 239

用黑客的方法研究Twitter的社交关系图数据 244

分析Twitter社交网络 252

第12章 模型比较 270

SVM:支持向量机 270

算法比较 280

参考文献 287