通過做數(shù)據(jù)分析學(xué)習(xí)數(shù)據(jù)分析 《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》提供了從數(shù)據(jù)準(zhǔn)備到探索性數(shù)據(jù)分析、數(shù)據(jù)建模及模型評估等整個數(shù)據(jù)分析過程的內(nèi)容。《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》不僅提供了理解軟件底層算法的“白盒”方法,而且提供了能夠使讀者利用現(xiàn)實世界數(shù)據(jù)集開展數(shù)據(jù)挖掘與預(yù)測分析的應(yīng)用方法。 第2版的新內(nèi)容: ● 添加了500多頁的新內(nèi)容,包括20個新章節(jié),例如,數(shù)據(jù)建模準(zhǔn)備、成本-效益分析、缺失數(shù)據(jù)填充、聚類優(yōu)劣度量以及細分模型等。 ● 針對前沿主題的新章節(jié),例如,多元分類模型、BIRCH聚類、集成學(xué)習(xí)(bagging及boosting)、模型投票與趨向平均等。 ● 每章節(jié)后均附有R語言開發(fā)園地,讀者可以獲得完成書中分析所需的R語言源代碼,以及通過R代碼生成的圖、表和結(jié)果。 ● 書中的附錄為那些對統(tǒng)計基礎(chǔ)生疏的讀者提供了了解基本概念的材料。 ● 超過750個章節(jié)練習(xí),使讀者能夠自己測試對所學(xué)知識的掌握程度,并著手開展數(shù)據(jù)挖掘與預(yù)測分析工作。 《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》將對數(shù)據(jù)分析人員、數(shù)據(jù)庫分析人員以及CIO具有極大的吸引力,通過學(xué)習(xí)將使他們知道何種類型的分析將會增加其投資回報。
本書提出的方法和技術(shù)、深入,幾乎涵蓋了當(dāng)前應(yīng)用中常見的各類挖掘與分析方法。對方法的介紹從概念、算法、評價等部分著手,深入淺出地加以介紹。在介紹方法的章節(jié)中增加了R語言開發(fā)園地,幫助讀者利用R語言開展實際設(shè)計和開發(fā)工作,獲得章節(jié)中涉及內(nèi)容的結(jié)果,便于讀者掌握所學(xué)內(nèi)容。
Daniel T. Larose博士,美國中康涅狄格州立大學(xué)數(shù)學(xué)科學(xué)教授,數(shù)據(jù)挖掘項目負責(zé)人。出版與數(shù)據(jù)挖掘、Web挖掘和統(tǒng)計理論等相關(guān)論著多本。他也是《微軟》、《福布斯》雜志以及《經(jīng)濟學(xué)人》雜志等數(shù)據(jù)挖掘與統(tǒng)計分析領(lǐng)域的顧問。Chantal D. Larose是美國康涅狄格大學(xué)的在讀博士。其研究領(lǐng)域包括缺失數(shù)據(jù)填補以及基于模型的聚類等。她已獲得美國新帕爾茲紐約州立大學(xué)商學(xué)院決策科學(xué)領(lǐng)域助理教授的職位。
第Ⅰ部分 數(shù)據(jù)準(zhǔn)備
第1章 數(shù)據(jù)挖掘與預(yù)測分析概述 3
1.1 什么是數(shù)據(jù)挖掘和預(yù)測分析 3
1.2 需求:數(shù)據(jù)挖掘技術(shù)人員 4
1.3 數(shù)據(jù)挖掘離不開人的參與 5
1.4 跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程:
CRISP-DM 6
1.5 數(shù)據(jù)挖掘的謬誤 8
1.6 數(shù)據(jù)挖掘能夠完成的任務(wù) 9
1.6.1 描述 9
1.6.2 評估 10
1.6.3 預(yù)測 11
1.6.4 分類 11
1.6.5 聚類 13
1.6.6 關(guān)聯(lián) 14
R語言開發(fā)園地 15
R參考文獻 16
練習(xí) 16
第2章 數(shù)據(jù)預(yù)處理 17
2.1 需要預(yù)處理數(shù)據(jù)的原因 17
2.2 數(shù)據(jù)清理 18
2.3 處理缺失數(shù)據(jù) 19
2.4 識別錯誤分類 22
2.5 識別離群值的圖形方法 22
2.6 中心和散布度量 24
2.7 數(shù)據(jù)變換 26
2.8 min-max規(guī)范化 26
2.9 Z-score標(biāo)準(zhǔn)化 27
2.10 小數(shù)定標(biāo)規(guī)范化 28
2.11 變換為正態(tài)數(shù)據(jù) 28
2.12 識別離群值的數(shù)值方法 34
2.13 標(biāo)志變量 35
2.14 將分類變量轉(zhuǎn)換為數(shù)值變量 35
2.15 數(shù)值變量分箱 36
2.16 對分類變量重新劃分類別 37
2.17 添加索引字段 37
2.18 刪除無用變量 38
2.19 可能不應(yīng)該刪除的變量 38
2.20 刪除重復(fù)記錄 39
2.21 ID字段簡述 39
R語言開發(fā)園地 39
R參考文獻 45
練習(xí) 45
第3章 探索性數(shù)據(jù)分析 49
3.1 假設(shè)檢驗與探索性數(shù)據(jù)分析 49
3.2 了解數(shù)據(jù)集 49
3.3 探索分類變量 52
3.4 探索數(shù)值變量 58
3.5 探索多元關(guān)系 62
3.6 選擇感興趣的數(shù)據(jù)子集作進一步研究 64
3.7 使用EDA發(fā)現(xiàn)異常字段 64
3.8 基于預(yù)測值分級 65
3.9 派生新變量:標(biāo)志變量 67
3.10 派生新變量:數(shù)值變量 69
3.11 使用EDA探測相關(guān)聯(lián)的預(yù)測
變量 70
3.12 EDA概述 73
R語言開發(fā)園地 73
R參考文獻 80
練習(xí) 80
第4章 降維方法 83
4.1 數(shù)據(jù)挖掘中降維的必要性 83
4.2 主成分分析 84
4.3 將主成分分析應(yīng)用于房屋
數(shù)據(jù)集 87
4.4 應(yīng)提取多少個主成分 91
4.4.1 特征值標(biāo)準(zhǔn) 91
4.4.2 解釋變異的比例標(biāo)準(zhǔn) 92
4.4.3 最小共性標(biāo)準(zhǔn) 92
4.4.4 坡度圖標(biāo)準(zhǔn) 92
4.5 主成分描述 94
4.6 共性 96
4.7 主成分驗證 97
4.8 因子分析法 98
4.9 因子分析法在成年人數(shù)據(jù)集中的
應(yīng)用 99
4.10 因子旋轉(zhuǎn) 101
4.11 用戶自定義合成 104
4.12 用戶自定義合成的示例 105
R語言開發(fā)園地 106
R參考文獻 110
練習(xí) 111
第Ⅱ部分 統(tǒng)計分析
第5章 單變量統(tǒng)計分析 117
5.1 數(shù)據(jù)知識發(fā)現(xiàn)中的數(shù)據(jù)挖掘
任務(wù) 117
5.2 用于估計和預(yù)測的統(tǒng)計方法 117
5.3 統(tǒng)計推理 118
5.4 我們對評估的確信程度如何 119
5.5 均值的置信區(qū)間估計 120
5.6 如何減少誤差范圍 121
5.7 比例的置信區(qū)間估計 122
5.8 均值的假設(shè)檢驗 123
5.9 拒絕零假設(shè)的證據(jù)力度的
評估 125
5.10 使用置信區(qū)間執(zhí)行假設(shè)檢驗 126
5.11 比例的假設(shè)檢驗 127
R語言開發(fā)園地 128
R參考文獻 129
練習(xí) 129
第6章 多元統(tǒng)計 133
6.1 描述均值差異的兩樣例t-檢驗
方法 133
6.2 判斷總體差異的兩樣例
Z-檢驗 134
6.3 比例均勻性的測試 135
6.4 多元數(shù)據(jù)擬合情況的
卡方檢驗 137
6.5 方差分析 138
R語言開發(fā)園地 141
R參考文獻 143
練習(xí) 143
第7章 數(shù)據(jù)建模準(zhǔn)備 145
7.1 有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí) 145
7.2 統(tǒng)計方法與數(shù)據(jù)挖掘方法 146
7.3 交叉驗證 146
7.4 過度擬合 147
7.5 偏差-方差權(quán)衡 148
7.6 平衡訓(xùn)練數(shù)據(jù)集 150
7.7 建立基線性能 151
R語言開發(fā)園地 152
R參考文獻 153
練習(xí) 153
第8章 簡單線性回歸 155
8.1 簡單線性回歸示例 155
8.2 外推的危險 161
8.3 回歸有用嗎?系數(shù)的確定 162
8.4 估計標(biāo)準(zhǔn)誤差 166
8.5 相關(guān)系數(shù)r 167
8.6 簡單線性回歸的方差分析表 169
8.7 離群點、高杠桿率點與有影響
的觀察點 170
8.8 回歸方程概括 178
8.9 回歸假設(shè)驗證 179
8.10 回歸推理 184
8.11 x與y之間關(guān)系的t-檢驗 185
8.12 回歸直線斜率的置信區(qū)間 187
8.13 相關(guān)系數(shù)ρ的置信區(qū)間 188
8.14 給定均值的置信區(qū)間 190
8.15 給定隨機選擇值的預(yù)測區(qū)間 191
8.16 獲得線性特性的變換 194
8.17 博克斯-考克斯變換 199
R語言開發(fā)園地 199
R參考文獻 205
練習(xí) 205
第9章 多元回歸與模型構(gòu)建 213
9.1 多元回歸示例 213
9.2 總體多元回歸方程 218
9.3 多元回歸推理 219
9.3.1 y與xi之間關(guān)系的t-檢驗 219
9.3.2 營養(yǎng)等級與含糖量之間關(guān)系
的t-檢驗 220
9.3.3 營養(yǎng)等級與纖維含量之間
關(guān)系的t-檢驗 220
9.3.4 總體回歸模型顯著性的
F-檢驗 221
9.3.5 營養(yǎng)等級與含糖量和纖維
含量之間關(guān)系的F-檢驗 222
9.3.6 特定系數(shù)βi的置信區(qū)間 223
9.3.7 (在給定x1,x2,…,xm的情況下)y
的均值的置信區(qū)間 223
9.3.8 (在給定x1,x2,…,xm的情況下
隨機選擇的y值的預(yù)測區(qū)間 223
9.4 利用指示變量的包含范疇型預(yù)測變量的回歸 224
9.5 調(diào)整R2:懲罰包含無用預(yù)測變量的模型 230
9.6 序列平方和 231
9.7 多重共線性 233
9.8 變量選擇方法 239
9.8.1 有偏F-檢驗 239
9.8.2 前向選擇過程 240
9.8.3 反向刪除過程 241
9.8.4 逐步選擇過程 241
9.8.5 子集過程 241
9.8.6 “所有可能子集”過程 242
9.9 油耗數(shù)據(jù)集 242
9.10 變量選擇方法的應(yīng)用 243
9.10.1 應(yīng)用于油耗數(shù)據(jù)集的前向
選擇過程 244
9.10.2 應(yīng)用于油耗數(shù)據(jù)集的后向
刪除過程 245
9.10.3 應(yīng)用于油耗數(shù)據(jù)集的逐步選擇過程 246
9.10.4 應(yīng)用于油耗數(shù)據(jù)集的子集過程 246
9.10.5 Mallows’Cp統(tǒng)計量 247
9.11 將主成分作為預(yù)測變量進行
多元回歸 251
R語言開發(fā)園地 255
R參考文獻 265
練習(xí) 265
第Ⅲ部分 分類
第10章 K-最近鄰算法 273
10.1 分類任務(wù) 273
10.2 k-最近鄰算法 274
10.3 距離函數(shù) 276
10.4 組合函數(shù) 279
10.4.1 簡單權(quán)重投票方式 279
10.4.2 加權(quán)投票 279
10.5 量化屬性的相關(guān)性:軸伸縮 280
10.6 數(shù)據(jù)庫方面的考慮 281
10.7 將k-最近鄰算法用于評估和
預(yù)測 281
10.8 k值的選擇 282
10.9 利用IBM/SPSS建模工具應(yīng)用
k-最近鄰算法 283
R語言開發(fā)園地 284
R參考文獻 286
練習(xí) 286
第11章 決策樹 289
11.1 決策樹是什么 289
11.2 使用決策樹的要求 291
11.3 分類與回歸樹 291
11.4 C4.5算法 297
11.5 決策規(guī)則 302
11.6 比較C5.0和CART算法應(yīng)用
到實際的數(shù)據(jù) 303
R語言開發(fā)園地 306
R參考文獻 307
練習(xí) 308
第12章 神經(jīng)元網(wǎng)絡(luò) 311
12.1 輸入和輸出編碼 312
12.2 神經(jīng)元網(wǎng)絡(luò)用于評估和預(yù)測 313
12.3 神經(jīng)元網(wǎng)絡(luò)的簡單示例 314
12.4 sigmoid激活函數(shù) 316
12.5 反向傳播 317
12.6 梯度下降法 317
12.7 反向傳播規(guī)則 318
12.8 反向傳播示例 319
12.9 終止條件 320
12.10 學(xué)習(xí)率 321
12.11 動量項 322
12.12 敏感性分析 323
12.13 神經(jīng)元網(wǎng)絡(luò)建模應(yīng)用 324
R語言開發(fā)園地 326
R參考文獻 328
練習(xí) 328
第13章 logistic回歸 331
13.1 logistic回歸簡單示例 331
13.2 較大似然估計 333
13.3 解釋logistic回歸的輸出 334
13.4 推理:這些預(yù)測有顯著性嗎 335
13.5 概率比比率與相對風(fēng)險 337
13.6 對二分logistic回歸預(yù)測的
解釋 339
13.7 對應(yīng)用于多元預(yù)測變量的
logistic回歸的解釋 342
13.8 對應(yīng)用于連續(xù)型預(yù)測變量的
logistic回歸的解釋 346
13.9 線性假設(shè) 351
13.10 零單元問題 353
13.11 多元logistic回歸 355
13.12 引入高階項處理非線性 359
13.13 logistic回歸模型的驗證 366
13.14 WEKA:應(yīng)用logistic回歸的
實踐分析 370
R語言開發(fā)園地 374
R參考文獻 380
練習(xí) 380
第14章 樸素貝葉斯與貝葉斯網(wǎng)絡(luò) 385
14.1 貝葉斯方法 385
14.2 較大后驗(MAP)分類 387
14.3 后驗概率比 391
14.4 數(shù)據(jù)平衡 393
14.5 樸素貝葉斯分類 394
14.6 解釋對數(shù)后驗概率比 397
14.7 零單元問題 398
14.8 樸素貝葉斯分類中的數(shù)值型
預(yù)測變量 399
14.9 WEKA:使用樸素貝葉斯開展
分析 402
14.10 貝葉斯信念網(wǎng)絡(luò) 406
14.11 衣物購買示例 407
14.12 利用貝葉斯網(wǎng)絡(luò)發(fā)現(xiàn)概率 409
R語言開發(fā)園地 413
R參考文獻 417
練習(xí) 417
第15章 模型評估技術(shù) 421
15.1 用于描述任務(wù)的模型評估
技術(shù) 421
15.2 用于評估和預(yù)測任務(wù)的模型
評估技術(shù) 422
15.3 用于分類任務(wù)的模型評估
方法 423
15.4 率和總誤差率 425
15.5 靈敏性和特效性 426
15.6 假正類率和假負類率 427
15.7 真正類、真負類、假正類、
假負類的比例 427
15.8 通過誤分類成本調(diào)整來反映
現(xiàn)實關(guān)注點 429
15.9 決策成本/效益分析 430
15.10 提升圖表和增益圖表 431
15.11 整合模型評估與模型建立 434
15.12 結(jié)果融合:應(yīng)用一系列
模型 435
R語言開發(fā)園地 436
R參考文獻 436
練習(xí) 437
第16章 基于數(shù)據(jù)驅(qū)動成本的
成本-效益分析 439
16.1 在行調(diào)整條件下的決策
不變性 439
16.2 正分類標(biāo)準(zhǔn) 440
16.3 正分類標(biāo)準(zhǔn)的示范 442
16.4 構(gòu)建成本矩陣 444
16.5 在縮放條件下的決策不變性 445
16.6 直接成本和機會成本 446
16.7 案例研究:基于數(shù)據(jù)驅(qū)動誤
分類成本的成本-效益分析 446
16.8 再平衡作為誤分類成本的
450
R語言開發(fā)園地 452
R參考文獻 455
練習(xí) 455
第17章 三元和k元分類模型的成本-
效益分析 459
17.1 三元目標(biāo)的分類評估變量 459
17.2 三元分類評估度量在貸款審批問題中的應(yīng)用 462
17.3 三元貸款分類問題的數(shù)據(jù)驅(qū)動成本-效益分析 466
17.4 比較使用/不使用數(shù)據(jù)驅(qū)動誤分類成本的CART模型 467
17.5 一般的k元目標(biāo)的分類評估
度量 470
17.6 k元分類中評估度量和數(shù)據(jù)驅(qū)動誤分類成本的示例 472
R語言開發(fā)園地 474
R參考文獻 475
練習(xí) 475
第18章 分類模型的圖形化評估 477
18.1 回顧提升圖表和增益圖表 477
18.2 使用誤分類成本的提升圖表
和增益圖表 477
18.3 響應(yīng)圖表 479
18.4 利潤圖表 479
18.5 投資回報(ROI)圖表 482
R語言開發(fā)園地 482
R參考文獻 484
練習(xí) 484
第Ⅳ部分 聚類
第19章 層次聚類和k-均值聚類 489
19.1 聚類任務(wù) 489
19.2 層次聚類方法 491
19.3 單一鏈聚類 492
19.4 鏈聚類 493
19.5 k-均值聚類 494
19.6 k-均值聚類實操示例 495
19.7 k-均值算法執(zhí)行中MSB、MSE和偽-F的行為 498
19.8 SAS Enterprise Miner中k-均值算法的應(yīng)用 499
19.9 使用簇成員關(guān)系來預(yù)測客戶
流失 501
R語言開發(fā)園地 502
R參考文獻 503
練習(xí) 504
第20章 Kohonen網(wǎng)絡(luò) 505
20.1 自組織映射 505
20.2 Kohonen網(wǎng)絡(luò) 507
20.3 Kohonen網(wǎng)絡(luò)學(xué)習(xí)示例 508
20.4 簇有效性 511
20.5 使用Kohonen網(wǎng)絡(luò)進行聚類
應(yīng)用 511
20.6 解釋簇 512
20.7 將簇成員關(guān)系作為下游數(shù)據(jù)
挖掘模型的輸入 517
R語言開發(fā)園地 518
R參考文獻 520
練習(xí) 520
第21章 BIRCH聚類 521
21.1 BIRCH聚類的理論基礎(chǔ) 521
21.2 簇特征 522
21.3 簇特征樹 523
21.4 階段1:構(gòu)建CF樹 523
21.5 階段2:聚類子簇 525
21.6 BIRCH聚類示例之階段1:
構(gòu)建CF樹 525
21.7 BIRCH聚類示例之階段2:
聚類子簇 530
21.8 候選聚類解決方案的評估 530
21.9 案例研究:在銀行貸款數(shù)據(jù)集
上應(yīng)用BIRCH聚類 531
21.9.1 案例研究第1課:對于
任意聚類算法避免高度
相關(guān)的輸
雙十一買的書,物流多少有點問題,不過可以理解
暴力快遞,很難受
這個商品很好
跟書本身沒有關(guān)系,快遞太差了。表現(xiàn)為以下幾點:1.還沒收到貨就顯示物流就顯示訂單已送達,當(dāng)時一臉懵逼,既沒收到短信也沒有電話,覺得可能是別人拿錯了,中午問了客服,說貨沒有拿錯,明天就給送來,所以是為了顯示送貨速度快,在客戶沒簽收的情況下先確認送達了;2.后面催客服,既然已經(jīng)送達就給我今天送來,客服說幫忙聯(lián)系,下午的時候快遞給我打電話,說上午的時候給我打電話了,我說手機上沒有未接來電啊,快遞員說當(dāng)時提示沒人接聽,我仔細想了一下,上午我手機就放在辦公桌上,而且11點的時候外賣給我打了電話,所以他是為什么打不通而且可以沒有未接來電很…
好好好好好好好好好好好好好好好好好好................
還沒看,看了再說
還不錯還不錯,還沒看
還可以不錯
基本上數(shù)據(jù)挖掘的算法都有了,用了R語言來實現(xiàn)
很不錯 好
類目非常全 很不錯的書
很好,正版的。
活動很給力,幫朋友買的
內(nèi)容不錯,學(xué)習(xí)一下大數(shù)據(jù)的實際案例。
幫別人買的書,一般我都挑著優(yōu)惠一些的來買。
很不錯,就是,就是,有點厚啊,耐心啃吧
幫別人買的書。
不錯啊不錯不錯不錯啊不錯不錯不錯啊不錯不錯
不錯的話。
不錯不錯!
書名有點托大,內(nèi)容上預(yù)測的東西沒那么多篇幅
基本上數(shù)據(jù)挖掘的算法都有了,用了R語言來實現(xiàn)
好端端的一本書給我摔成這樣!我買的是新書不是破書!