📕书籍信息
- 书名:数据科学实战
- 作者:[美] Rachel Schutt,[美] Cathy O'Neil
- 豆瓣评分:⭐7.9
- 出版社:人民邮电出版社
- isbn:9787115383495
- 出版日期:2015-3
- 价格:79.00元
- 豆瓣:数据科学实战
🌵内容简介
【编辑推荐】:
• 统计推断、探索性数据分析(EDA)及数据科学工作流程
• 算法
• 垃圾邮件过滤、朴素贝叶斯和数据清理
• 逻辑回归
• 金融建模
• 推荐引擎和因果关系
• 数据可视化
• 社交网络与数据新闻
• 数据工程、MapReduce、Pregel和Hadoop
📣听过的人说…
- 😗: 师者,所以传道授业解惑也。这本书做到了
- 😗: 很不错的一本湿货,翻译好的没话说,连“无厘头”都被翻出来了,很想知道原文是不是nonsense。。。以后还会翻看里面的R程序
- 😗: 對於ML 來說,這本書講得太淺。興許對於DS 還尚可。不過最後對於data scientist 所應具備的技能,還是蠻認可的。scientist 比engineer 做好了還是技高一籌,對於研究結果,論文輸出或報告輸出擴大影響還是蠻有好處。只是本書翻譯欠佳,讀來不禁搖頭嘆息。要是要理解各算法,還是MMDS 更值得推薦。
📑书籍章节
- 作者介绍 XII
- 关于封面图 XIII
- 前言 XIV
- 第1章 简介:什么是数据科学 1
- 1.1 大数据和数据科学的喧嚣 1
- 1.2 冲出迷雾 2
- 1.3 为什么是现在 3
- 1.4 数据科学的现状和历史 5
- 1.5 数据科学的知识结构 8
- 1.6 思维实验:元定义 10
- 1.7 什么是数据科学家 11
- 1.7.1 学术界对数据科学家的定义 12
- 1.7.2 工业界对数据科学家的定义 12
- 第2章 统计推断、探索性数据分析和数据科学工作流程 14
- 2.1 大数据时代的统计学思考 14
- 2.1.1 统计推断 15
- 2.1.2 总体和样本 16
- 2.1.3 大数据的总体和样本 17
- 2.1.4 大数据意味着大胆的假设 19
- 2.1.5 建模 21
- 2.2 探索性数据分析 26
- 2.2.1 探索性数据分析的哲学 27
- 2.2.2 练习:探索性数据分析 29
- 2.3 数据科学的工作流程 31
- 2.4 思维实验:如何模拟混沌 34
- 2.5 案例学习:RealDirect 35
- 2.5.1 RealDirect是如何赚钱的 36
- 2.5.2 练一练:RealDirect公司的数据策略 36
- 第3章 算法 39
- 3.1 机器学习算法 40
- 3.2 三大基本算法 41
- 3.2.1 线性回归模型 42
- 3.2.2 k 近邻模型(k-NN) 55
- 3.2.3 k 均值算法 64
- 3.3 练习:机器学习算法基础 68
- 3.4 总结 72
- 3.5 思维实验:关于统计学家的自动化 73
- 第4章 垃圾邮件过滤器、朴素贝叶斯与数据清理 74
- 4.1 思维实验:从实例中学习 74
- 4.1.1 线性回归为何不适用 75
- 4.1.2 k 近邻效果如何 77
- 4.2 朴素贝叶斯模型 78
- 4.2.1 贝叶斯法则 79
- 4.2.2 个别单词的过滤器 80
- 4.2.3 直通朴素贝叶斯 82
- 4.3 拉普拉斯平滑法 83
- 4.4 对比朴素贝叶斯和k 近邻 85
- 4.5 Bash代码示例 85
- 4.6 网页抓取:API和其他工具 87
- 4.7 Jake的练习题:文章分类问题中的朴素贝叶斯模型 88
- 第5章 逻辑回归 92
- 5.1 思维实验 93
- 5.2 分类器 94
- 5.2.1 运行时间 95
- 5.2.2 你自己 95
- 5.2.3 模型的可解释性 95
- 5.2.4 可扩展性 96
- 5.3 逻辑回归:一个来自M6D 的真实案例研究 96
- 5.3.1 点击模型 96
- 5.3.2 模型背后 97
- 5.3.3 α和β 的参数估计 99
- 5.3.4 牛顿法 101
- 5.3.5 随机梯度下降法 101
- 5.3.6 操练 101
- 5.3.7 模型评价 102
- 5.4 练习题 105
- 第6章 时间戳数据与金融建模 110
- 6.1 Kyle Teague与GetGlue公司 110
- 6.2 时间戳 112
- 6.2.1 探索性数据分析(EDA) 113
- 6.2.2 指标和新变量 117
- 6.2.3 下一步怎么做 117
- 6.3 轮到Cathy O’Neill了 118
- 6.4 思维实验 118
- 6.5 金融建模 119
- 6.5.1 样本期内外以及因果关系 120
- 6.5.2 金融数据处理 121
- 6.5.3 对数收益率 123
- 6.5.4 实例:标准普尔指数 124
- 6.5.5 如何衡量波动率 126
- 6.5.6 指数平滑法 128
- 6.5.7 金融模型的反馈 128
- 6.5.8 聊聊回归模型 130
- 6.5.9 先验信息量 130
- 6.5.10 一个小例子 131
- 6.6 练习:GetGlue提供的时间戳数据 134
- 第7章 从数据到结论 136
- 7.1 William Cukierski 136
- 7.1.1 背景介绍:数据科学竞赛 136
- 7.1.2 背景介绍:众包模式 137
- 7.2 Kaggle模式 139
- 7.2.1 Kaggle的参赛者 140
- 7.2.2 Kaggle的客户 141
- 7.3 思维实验:关于作业自动评分系统 143
- 7.4 特征选择 145
- 7.4.1 例子:留住用户 146
- 7.4.2 过滤型 149
- 7.4.3 包装型 149
- 7.4.4 决策树与嵌入型变量选择 151
- 7.4.5 熵 153
- 7.4.6 决策树算法 155
- 7.4.7 如何在决策树模型中处理连续性变量 156
- 7.4.8 随机森林 157
- 7.4.9 用户黏性:模型的预测能力与可解释性 159
- 7.5 David Huffaker:谷歌社会学研究的新方法 160
- 7.5.1 从描述性统计到预测模型 161
- 7.5.2 谷歌的社交研究 163
- 7.5.3 隐私保护 163
- 7.5.4 思维实验:如何消除用户的顾虑 164
- 第8章 构建面向大量用户的推荐引擎 165
- 8.1 一个真实的推荐引擎 166
- 8.1.1 最近邻算法回顾 167
- 8.1.2 最近邻模型的已知问题 168
- 8.1.3 超越近邻模型:基于机器学习的分类模型 169
- 8.1.4 高维度问题 171
- 8.1.5 奇异值分解(SVD) 172
- 8.1.6 关于SVD的重要特性 172
- 8.1.7 主成分分析(PCA) 173
- 8.1.8 交替最小二乘法 174
- 8.1.9 固定矩阵V,更新矩阵U 175
- 8.1.10 关于这些算法的一点思考 176
- 8.2 思维实验:如何过滤模型中的泡沫 176
- 8.3 练习:搭建自己的推荐系统 176
- 第9章 数据可视化与欺诈侦测 179
- 9.1 数据可视化的历史 179
- 9.1.1 Gabriel Tarde 180
- 9.1.2 Mark 的思维实验 181
- 9.2 到底什么是数据科学 181
- 9.2.1 Processing 182
- 9.2.2 Franco Moretti 182
- 9.3 一个数据可视化的方案实例 183
- 9.4 Mark 的数据可视化项目 186
- 9.4.1 《纽约时报》大厅里的可视化:Moveable Type 186
- 9.4.2 屏幕上的生命:Cascade可视化项目 188
- 9.4.3 Cronkite广场项目 189
- 9.4.4 eBay与图书网购 190
- 9.4.5 公共剧场里的“莎士比亚机” 192
- 9.4.6 这些展览的目的是什么 193
- 9.5 数据科学和风险 193
- 9.5.1 关于Square公司 194
- 9.5.2 支付风险 194
- 9.5.3 模型效果的评估问题 197
- 9.5.4 建模小贴士 200
- 9.6 数据可视化在Square 203
- 9.7 Ian的思维实验 204
- 9.8 关于数据可视化 204
- 第10章 社交网络与数据新闻学 207
- 10.1 Morning Analytics与社交网络 207
- 10.2 社交网络分析 209
- 10.3 关于社交网络分析的相关术语 209
- 10.3.1 如何衡量向心性 210
- 10.3.2 使用哪种向心性测度 211
- 10.4 思维实验 212
- 10.5 Morningside Analytics 212
- 10.6 从统计学的角度看社交网络分析 215
- 10.6.1 网络的表示方法与特征值向心度 215
- 10.6.2 随机网络的第一个例子:Erdos-Renyi模型 217
- 10.6.3 随机网络的第二个例子:指数随机网络图模型 217
- 10.7 数据新闻学 220
- 10.7.1 关于数据新闻学的历史回顾 220
- 10.7.2 数据新闻报告的写作:来自专家的建议 220
- 第11章 因果关系研究 222
- 11.1 相关性并不代表因果关系 223
- 11.1.1 对因果关系提问 223
- 11.1.2 干扰因子:一个关于在线约会网站的例子 224
- 11.2 OK Cupid的发现 225
- 11.3 黄金准则:随机化临床实验 226
- 11.4 A/B测试 228
- 11.5 退一步求其次:关于观察性研究 229
- 11.5.1 辛普森悖论 230
- 11.5.2 鲁宾因果关系模型 231
- 11.5.3 因果关系的可视化 232
- 11.5.4 定义:因果关系 233
- 11.6 三个小建议 235
- 第12章 流行病学 236
- 12.1 Madigan的学术背景 236
- 12.2 思维实验 237
- 12.3 统计学在现代 238
- 12.4 医学文献与观察性研究 238
- 12.5 分层法不解决干扰因子的问题 239
- 12.6 就没有更好的办法吗 241
- 12.7 研究性实验(OMOP) 242
- 12.8 最后的思维实验 246
- 第13章 从竞赛中学到的:数据泄漏和模型评价 247
- 13.1 Claudia作为数据科学家的知识结构 247
- 13.1.1 首席数据科学家的生活 248
- 13.1.2 作为一名女数据科学家 248
- 13.2 数据挖掘竞赛 249
- 13.3 如何成为出色的建模者 250
- 13.4 数据泄漏 250
- 13.4.1 市场预测 251
- 13.4.2 亚马逊案例学习:出手阔绰的顾客 251
- 13.4.3 珠宝抽样问题 251
- 13.4.4 IBM 客户锁定 252
- 13.4.5 乳腺癌检测 253
- 13.4.6 预测肺炎 253
- 13.5 如何避免数据泄漏 254
- 13.6 模型评价 255
- 13.6.1 准确度重要吗 256
- 13.6.2 概率的重要性,不是非0 即1 256
- 13.7 如何选择算法 259
- 13.8 最后一个例子 259
- 13.9 临别感言 260
- 第14章 数据工程:MapReduce、Pregel、Hadoop 261
- 14.1 关于David Crawshaw 262
- 14.2 思维实验 262
- 14.3 MapReduce 263
- 14.4 单词频率问题 264
- 14.5 其他MapReduce案例 267
- 14.6 Pregel 268
- 14.7 关于Josh Wills 269
- 14.8 思维实验 269
- 14.9 给数据科学家的话 269
- 14.9.1 数据丰富和数据匮乏 270
- 14.9.2 设计模型 270
- 14.10 算算Hadoop的经济账 270
- 14.10.1 Hadoop简介 271
- 14.10.2 Cloudera 271
- 14.11 Josh 的工作流程 272
- 14.12 如何开始使用Hadoop 272
- 第15章 听听学生们怎么说 273
- 15.1 重在过程 273
- 15.2 不再简单 274
- 15.3 援助之手 275
- 15.4 殊途同归 277
- 15.5 逢山开路,遇水架桥 279
- 15.6 作品展示 279
- 第16章 下一代数据科学家、自大狂和职业道德 281
- 16.1 前面都讲了些什么 281
- 16.2 什么是数据科学(再问一次) 282
- 16.3 谁是下一代的数据科学家 283
- 16.3.1 成为解决问题的人 284
- 16.3.2 培养软技能 284
- 16.3.3 成为提问者 285
- 16.4 做一个有道德感的数据科学家 286
- 16.5 对于职业生涯的建议 289
声明:本站所有资源、素材等全部来源于互联网,仅供听友试听、学习、交流 版权归原版权人所有
赞助VIP仅用于对IT资源服务器带宽等费用支出做支持,从本站下载资源,说明你已同意本条款。如若本站内容侵犯了原著者的合法权益,请来信告知,我们将(3日内)予以删除
评论(0)