日韩偷拍一区二区,国产香蕉久久精品综合网,亚洲激情五月婷婷,欧美日韩国产不卡

在線客服
數(shù)據(jù)挖掘與預(yù)測分析(第2版)圖書
人氣:42

數(shù)據(jù)挖掘與預(yù)測分析(第2版)

由數(shù)據(jù)挖掘?qū)<覉?zhí)筆,提供了從數(shù)據(jù)準(zhǔn)備到探索新數(shù)據(jù)分析、數(shù)據(jù)建模及模型評估等整個數(shù)據(jù)分析過程的內(nèi)容

內(nèi)容簡介

通過做數(shù)據(jù)分析學(xué)習(xí)數(shù)據(jù)分析 《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》提供了從數(shù)據(jù)準(zhǔn)備到探索性數(shù)據(jù)分析、數(shù)據(jù)建模及模型評估等整個數(shù)據(jù)分析過程的內(nèi)容。《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》不僅提供了理解軟件底層算法的“白盒”方法,而且提供了能夠使讀者利用現(xiàn)實世界數(shù)據(jù)集開展數(shù)據(jù)挖掘與預(yù)測分析的應(yīng)用方法。 第2版的新內(nèi)容: ● 添加了500多頁的新內(nèi)容,包括20個新章節(jié),例如,數(shù)據(jù)建模準(zhǔn)備、成本-效益分析、缺失數(shù)據(jù)填充、聚類優(yōu)劣度量以及細分模型等。 ● 針對前沿主題的新章節(jié),例如,多元分類模型、BIRCH聚類、集成學(xué)習(xí)(bagging及boosting)、模型投票與趨向平均等。 ● 每章節(jié)后均附有R語言開發(fā)園地,讀者可以獲得完成書中分析所需的R語言源代碼,以及通過R代碼生成的圖、表和結(jié)果。 ● 書中的附錄為那些對統(tǒng)計基礎(chǔ)生疏的讀者提供了了解基本概念的材料。 ● 超過750個章節(jié)練習(xí),使讀者能夠自己測試對所學(xué)知識的掌握程度,并著手開展數(shù)據(jù)挖掘與預(yù)測分析工作。 《數(shù)據(jù)挖掘與預(yù)測分析(第2版)》將對數(shù)據(jù)分析人員、數(shù)據(jù)庫分析人員以及CIO具有極大的吸引力,通過學(xué)習(xí)將使他們知道何種類型的分析將會增加其投資回報。

編輯推薦

本書提出的方法和技術(shù)、深入,幾乎涵蓋了當(dāng)前應(yīng)用中常見的各類挖掘與分析方法。對方法的介紹從概念、算法、評價等部分著手,深入淺出地加以介紹。在介紹方法的章節(jié)中增加了R語言開發(fā)園地,幫助讀者利用R語言開展實際設(shè)計和開發(fā)工作,獲得章節(jié)中涉及內(nèi)容的結(jié)果,便于讀者掌握所學(xué)內(nèi)容。

作者簡介

Daniel T. Larose博士,美國中康涅狄格州立大學(xué)數(shù)學(xué)科學(xué)教授,數(shù)據(jù)挖掘項目負責(zé)人。出版與數(shù)據(jù)挖掘、Web挖掘和統(tǒng)計理論等相關(guān)論著多本。他也是《微軟》、《福布斯》雜志以及《經(jīng)濟學(xué)人》雜志等數(shù)據(jù)挖掘與統(tǒng)計分析領(lǐng)域的顧問。Chantal D. Larose是美國康涅狄格大學(xué)的在讀博士。其研究領(lǐng)域包括缺失數(shù)據(jù)填補以及基于模型的聚類等。她已獲得美國新帕爾茲紐約州立大學(xué)商學(xué)院決策科學(xué)領(lǐng)域助理教授的職位。

目錄

第Ⅰ部分 數(shù)據(jù)準(zhǔn)備

第1章 數(shù)據(jù)挖掘與預(yù)測分析概述 3

1.1 什么是數(shù)據(jù)挖掘和預(yù)測分析 3

1.2 需求:數(shù)據(jù)挖掘技術(shù)人員 4

1.3 數(shù)據(jù)挖掘離不開人的參與 5

1.4 跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程:

CRISP-DM 6

1.5 數(shù)據(jù)挖掘的謬誤 8

1.6 數(shù)據(jù)挖掘能夠完成的任務(wù) 9

1.6.1 描述 9

1.6.2 評估 10

1.6.3 預(yù)測 11

1.6.4 分類 11

1.6.5 聚類 13

1.6.6 關(guān)聯(lián) 14

R語言開發(fā)園地 15

R參考文獻 16

練習(xí) 16

第2章 數(shù)據(jù)預(yù)處理 17

2.1 需要預(yù)處理數(shù)據(jù)的原因 17

2.2 數(shù)據(jù)清理 18

2.3 處理缺失數(shù)據(jù) 19

2.4 識別錯誤分類 22

2.5 識別離群值的圖形方法 22

2.6 中心和散布度量 24

2.7 數(shù)據(jù)變換 26

2.8 min-max規(guī)范化 26

2.9 Z-score標(biāo)準(zhǔn)化 27

2.10 小數(shù)定標(biāo)規(guī)范化 28

2.11 變換為正態(tài)數(shù)據(jù) 28

2.12 識別離群值的數(shù)值方法 34

2.13 標(biāo)志變量 35

2.14 將分類變量轉(zhuǎn)換為數(shù)值變量 35

2.15 數(shù)值變量分箱 36

2.16 對分類變量重新劃分類別 37

2.17 添加索引字段 37

2.18 刪除無用變量 38

2.19 可能不應(yīng)該刪除的變量 38

2.20 刪除重復(fù)記錄 39

2.21 ID字段簡述 39

R語言開發(fā)園地 39

R參考文獻 45

練習(xí) 45

第3章 探索性數(shù)據(jù)分析 49

3.1 假設(shè)檢驗與探索性數(shù)據(jù)分析 49

3.2 了解數(shù)據(jù)集 49

3.3 探索分類變量 52

3.4 探索數(shù)值變量 58

3.5 探索多元關(guān)系 62

3.6 選擇感興趣的數(shù)據(jù)子集作進一步研究 64

3.7 使用EDA發(fā)現(xiàn)異常字段 64

3.8 基于預(yù)測值分級 65

3.9 派生新變量:標(biāo)志變量 67

3.10 派生新變量:數(shù)值變量 69

3.11 使用EDA探測相關(guān)聯(lián)的預(yù)測

變量 70

3.12 EDA概述 73

R語言開發(fā)園地 73

R參考文獻 80

練習(xí) 80

第4章 降維方法 83

4.1 數(shù)據(jù)挖掘中降維的必要性 83

4.2 主成分分析 84

4.3 將主成分分析應(yīng)用于房屋

數(shù)據(jù)集 87

4.4 應(yīng)提取多少個主成分 91

4.4.1 特征值標(biāo)準(zhǔn) 91

4.4.2 解釋變異的比例標(biāo)準(zhǔn) 92

4.4.3 最小共性標(biāo)準(zhǔn) 92

4.4.4 坡度圖標(biāo)準(zhǔn) 92

4.5 主成分描述 94

4.6 共性 96

4.7 主成分驗證 97

4.8 因子分析法 98

4.9 因子分析法在成年人數(shù)據(jù)集中的

應(yīng)用 99

4.10 因子旋轉(zhuǎn) 101

4.11 用戶自定義合成 104

4.12 用戶自定義合成的示例 105

R語言開發(fā)園地 106

R參考文獻 110

練習(xí) 111

第Ⅱ部分 統(tǒng)計分析

第5章 單變量統(tǒng)計分析 117

5.1 數(shù)據(jù)知識發(fā)現(xiàn)中的數(shù)據(jù)挖掘

任務(wù) 117

5.2 用于估計和預(yù)測的統(tǒng)計方法 117

5.3 統(tǒng)計推理 118

5.4 我們對評估的確信程度如何 119

5.5 均值的置信區(qū)間估計 120

5.6 如何減少誤差范圍 121

5.7 比例的置信區(qū)間估計 122

5.8 均值的假設(shè)檢驗 123

5.9 拒絕零假設(shè)的證據(jù)力度的

評估 125

5.10 使用置信區(qū)間執(zhí)行假設(shè)檢驗 126

5.11 比例的假設(shè)檢驗 127

R語言開發(fā)園地 128

R參考文獻 129

練習(xí) 129

第6章 多元統(tǒng)計 133

6.1 描述均值差異的兩樣例t-檢驗

方法 133

6.2 判斷總體差異的兩樣例

Z-檢驗 134

6.3 比例均勻性的測試 135

6.4 多元數(shù)據(jù)擬合情況的

卡方檢驗 137

6.5 方差分析 138

R語言開發(fā)園地 141

R參考文獻 143

練習(xí) 143

第7章 數(shù)據(jù)建模準(zhǔn)備 145

7.1 有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí) 145

7.2 統(tǒng)計方法與數(shù)據(jù)挖掘方法 146

7.3 交叉驗證 146

7.4 過度擬合 147

7.5 偏差-方差權(quán)衡 148

7.6 平衡訓(xùn)練數(shù)據(jù)集 150

7.7 建立基線性能 151

R語言開發(fā)園地 152

R參考文獻 153

練習(xí) 153

第8章 簡單線性回歸 155

8.1 簡單線性回歸示例 155

8.2 外推的危險 161

8.3 回歸有用嗎?系數(shù)的確定 162

8.4 估計標(biāo)準(zhǔn)誤差 166

8.5 相關(guān)系數(shù)r 167

8.6 簡單線性回歸的方差分析表 169

8.7 離群點、高杠桿率點與有影響

的觀察點 170

8.8 回歸方程概括 178

8.9 回歸假設(shè)驗證 179

8.10 回歸推理 184

8.11 x與y之間關(guān)系的t-檢驗 185

8.12 回歸直線斜率的置信區(qū)間 187

8.13 相關(guān)系數(shù)ρ的置信區(qū)間 188

8.14 給定均值的置信區(qū)間 190

8.15 給定隨機選擇值的預(yù)測區(qū)間 191

8.16 獲得線性特性的變換 194

8.17 博克斯-考克斯變換 199

R語言開發(fā)園地 199

R參考文獻 205

練習(xí) 205

第9章 多元回歸與模型構(gòu)建 213

9.1 多元回歸示例 213

9.2 總體多元回歸方程 218

9.3 多元回歸推理 219

9.3.1 y與xi之間關(guān)系的t-檢驗 219

9.3.2 營養(yǎng)等級與含糖量之間關(guān)系

的t-檢驗 220

9.3.3 營養(yǎng)等級與纖維含量之間

關(guān)系的t-檢驗 220

9.3.4 總體回歸模型顯著性的

F-檢驗 221

9.3.5 營養(yǎng)等級與含糖量和纖維

含量之間關(guān)系的F-檢驗 222

9.3.6 特定系數(shù)βi的置信區(qū)間 223

9.3.7 (在給定x1,x2,…,xm的情況下)y

的均值的置信區(qū)間 223

9.3.8 (在給定x1,x2,…,xm的情況下

隨機選擇的y值的預(yù)測區(qū)間 223

9.4 利用指示變量的包含范疇型預(yù)測變量的回歸 224

9.5 調(diào)整R2:懲罰包含無用預(yù)測變量的模型 230

9.6 序列平方和 231

9.7 多重共線性 233

9.8 變量選擇方法 239

9.8.1 有偏F-檢驗 239

9.8.2 前向選擇過程 240

9.8.3 反向刪除過程 241

9.8.4 逐步選擇過程 241

9.8.5 子集過程 241

9.8.6 “所有可能子集”過程 242

9.9 油耗數(shù)據(jù)集 242

9.10 變量選擇方法的應(yīng)用 243

9.10.1 應(yīng)用于油耗數(shù)據(jù)集的前向

選擇過程 244

9.10.2 應(yīng)用于油耗數(shù)據(jù)集的后向

刪除過程 245

9.10.3 應(yīng)用于油耗數(shù)據(jù)集的逐步選擇過程 246

9.10.4 應(yīng)用于油耗數(shù)據(jù)集的子集過程 246

9.10.5 Mallows’Cp統(tǒng)計量 247

9.11 將主成分作為預(yù)測變量進行

多元回歸 251

R語言開發(fā)園地 255

R參考文獻 265

練習(xí) 265

第Ⅲ部分 分類

第10章 K-最近鄰算法 273

10.1 分類任務(wù) 273

10.2 k-最近鄰算法 274

10.3 距離函數(shù) 276

10.4 組合函數(shù) 279

10.4.1 簡單權(quán)重投票方式 279

10.4.2 加權(quán)投票 279

10.5 量化屬性的相關(guān)性:軸伸縮 280

10.6 數(shù)據(jù)庫方面的考慮 281

10.7 將k-最近鄰算法用于評估和

預(yù)測 281

10.8 k值的選擇 282

10.9 利用IBM/SPSS建模工具應(yīng)用

k-最近鄰算法 283

R語言開發(fā)園地 284

R參考文獻 286

練習(xí) 286

第11章 決策樹 289

11.1 決策樹是什么 289

11.2 使用決策樹的要求 291

11.3 分類與回歸樹 291

11.4 C4.5算法 297

11.5 決策規(guī)則 302

11.6 比較C5.0和CART算法應(yīng)用

到實際的數(shù)據(jù) 303

R語言開發(fā)園地 306

R參考文獻 307

練習(xí) 308

第12章 神經(jīng)元網(wǎng)絡(luò) 311

12.1 輸入和輸出編碼 312

12.2 神經(jīng)元網(wǎng)絡(luò)用于評估和預(yù)測 313

12.3 神經(jīng)元網(wǎng)絡(luò)的簡單示例 314

12.4 sigmoid激活函數(shù) 316

12.5 反向傳播 317

12.6 梯度下降法 317

12.7 反向傳播規(guī)則 318

12.8 反向傳播示例 319

12.9 終止條件 320

12.10 學(xué)習(xí)率 321

12.11 動量項 322

12.12 敏感性分析 323

12.13 神經(jīng)元網(wǎng)絡(luò)建模應(yīng)用 324

R語言開發(fā)園地 326

R參考文獻 328

練習(xí) 328

第13章 logistic回歸 331

13.1 logistic回歸簡單示例 331

13.2 較大似然估計 333

13.3 解釋logistic回歸的輸出 334

13.4 推理:這些預(yù)測有顯著性嗎 335

13.5 概率比比率與相對風(fēng)險 337

13.6 對二分logistic回歸預(yù)測的

解釋 339

13.7 對應(yīng)用于多元預(yù)測變量的

logistic回歸的解釋 342

13.8 對應(yīng)用于連續(xù)型預(yù)測變量的

logistic回歸的解釋 346

13.9 線性假設(shè) 351

13.10 零單元問題 353

13.11 多元logistic回歸 355

13.12 引入高階項處理非線性 359

13.13 logistic回歸模型的驗證 366

13.14 WEKA:應(yīng)用logistic回歸的

實踐分析 370

R語言開發(fā)園地 374

R參考文獻 380

練習(xí) 380

第14章 樸素貝葉斯與貝葉斯網(wǎng)絡(luò) 385

14.1 貝葉斯方法 385

14.2 較大后驗(MAP)分類 387

14.3 后驗概率比 391

14.4 數(shù)據(jù)平衡 393

14.5 樸素貝葉斯分類 394

14.6 解釋對數(shù)后驗概率比 397

14.7 零單元問題 398

14.8 樸素貝葉斯分類中的數(shù)值型

預(yù)測變量 399

14.9 WEKA:使用樸素貝葉斯開展

分析 402

14.10 貝葉斯信念網(wǎng)絡(luò) 406

14.11 衣物購買示例 407

14.12 利用貝葉斯網(wǎng)絡(luò)發(fā)現(xiàn)概率 409

R語言開發(fā)園地 413

R參考文獻 417

練習(xí) 417

第15章 模型評估技術(shù) 421

15.1 用于描述任務(wù)的模型評估

技術(shù) 421

15.2 用于評估和預(yù)測任務(wù)的模型

評估技術(shù) 422

15.3 用于分類任務(wù)的模型評估

方法 423

15.4 率和總誤差率 425

15.5 靈敏性和特效性 426

15.6 假正類率和假負類率 427

15.7 真正類、真負類、假正類、

假負類的比例 427

15.8 通過誤分類成本調(diào)整來反映

現(xiàn)實關(guān)注點 429

15.9 決策成本/效益分析 430

15.10 提升圖表和增益圖表 431

15.11 整合模型評估與模型建立 434

15.12 結(jié)果融合:應(yīng)用一系列

模型 435

R語言開發(fā)園地 436

R參考文獻 436

練習(xí) 437

第16章 基于數(shù)據(jù)驅(qū)動成本的

成本-效益分析 439

16.1 在行調(diào)整條件下的決策

不變性 439

16.2 正分類標(biāo)準(zhǔn) 440

16.3 正分類標(biāo)準(zhǔn)的示范 442

16.4 構(gòu)建成本矩陣 444

16.5 在縮放條件下的決策不變性 445

16.6 直接成本和機會成本 446

16.7 案例研究:基于數(shù)據(jù)驅(qū)動誤

分類成本的成本-效益分析 446

16.8 再平衡作為誤分類成本的

450

R語言開發(fā)園地 452

R參考文獻 455

練習(xí) 455

第17章 三元和k元分類模型的成本-

效益分析 459

17.1 三元目標(biāo)的分類評估變量 459

17.2 三元分類評估度量在貸款審批問題中的應(yīng)用 462

17.3 三元貸款分類問題的數(shù)據(jù)驅(qū)動成本-效益分析 466

17.4 比較使用/不使用數(shù)據(jù)驅(qū)動誤分類成本的CART模型 467

17.5 一般的k元目標(biāo)的分類評估

度量 470

17.6 k元分類中評估度量和數(shù)據(jù)驅(qū)動誤分類成本的示例 472

R語言開發(fā)園地 474

R參考文獻 475

練習(xí) 475

第18章 分類模型的圖形化評估 477

18.1 回顧提升圖表和增益圖表 477

18.2 使用誤分類成本的提升圖表

和增益圖表 477

18.3 響應(yīng)圖表 479

18.4 利潤圖表 479

18.5 投資回報(ROI)圖表 482

R語言開發(fā)園地 482

R參考文獻 484

練習(xí) 484

第Ⅳ部分 聚類

第19章 層次聚類和k-均值聚類 489

19.1 聚類任務(wù) 489

19.2 層次聚類方法 491

19.3 單一鏈聚類 492

19.4 鏈聚類 493

19.5 k-均值聚類 494

19.6 k-均值聚類實操示例 495

19.7 k-均值算法執(zhí)行中MSB、MSE和偽-F的行為 498

19.8 SAS Enterprise Miner中k-均值算法的應(yīng)用 499

19.9 使用簇成員關(guān)系來預(yù)測客戶

流失 501

R語言開發(fā)園地 502

R參考文獻 503

練習(xí) 504

第20章 Kohonen網(wǎng)絡(luò) 505

20.1 自組織映射 505

20.2 Kohonen網(wǎng)絡(luò) 507

20.3 Kohonen網(wǎng)絡(luò)學(xué)習(xí)示例 508

20.4 簇有效性 511

20.5 使用Kohonen網(wǎng)絡(luò)進行聚類

應(yīng)用 511

20.6 解釋簇 512

20.7 將簇成員關(guān)系作為下游數(shù)據(jù)

挖掘模型的輸入 517

R語言開發(fā)園地 518

R參考文獻 520

練習(xí) 520

第21章 BIRCH聚類 521

21.1 BIRCH聚類的理論基礎(chǔ) 521

21.2 簇特征 522

21.3 簇特征樹 523

21.4 階段1:構(gòu)建CF樹 523

21.5 階段2:聚類子簇 525

21.6 BIRCH聚類示例之階段1:

構(gòu)建CF樹 525

21.7 BIRCH聚類示例之階段2:

聚類子簇 530

21.8 候選聚類解決方案的評估 530

21.9 案例研究:在銀行貸款數(shù)據(jù)集

上應(yīng)用BIRCH聚類 531

21.9.1 案例研究第1課:對于

任意聚類算法避免高度

相關(guān)的輸

網(wǎng)友評論(不代表本站觀點)

來自chenche**的評論:

雙十一買的書,物流多少有點問題,不過可以理解

2017-11-26 22:49:52
來自匿名用**的評論:

暴力快遞,很難受

2017-07-09 21:02:33
來自l***5(**的評論:

這個商品很好

2017-03-16 17:43:26
來自匿名用**的評論:

跟書本身沒有關(guān)系,快遞太差了。表現(xiàn)為以下幾點:1.還沒收到貨就顯示物流就顯示訂單已送達,當(dāng)時一臉懵逼,既沒收到短信也沒有電話,覺得可能是別人拿錯了,中午問了客服,說貨沒有拿錯,明天就給送來,所以是為了顯示送貨速度快,在客戶沒簽收的情況下先確認送達了;2.后面催客服,既然已經(jīng)送達就給我今天送來,客服說幫忙聯(lián)系,下午的時候快遞給我打電話,說上午的時候給我打電話了,我說手機上沒有未接來電啊,快遞員說當(dāng)時提示沒人接聽,我仔細想了一下,上午我手機就放在辦公桌上,而且11點的時候外賣給我打了電話,所以他是為什么打不通而且可以沒有未接來電很…

2017-06-02 18:12:50
來自匿名用**的評論:

好好好好好好好好好好好好好好好好好好................

2017-06-03 12:01:38
來自匿名用**的評論:

還沒看,看了再說

2017-06-13 09:32:56
來自匿名用**的評論:

還不錯還不錯,還沒看

2017-06-14 09:16:31
來自匿名用**的評論:

還可以不錯

2017-06-17 09:19:57
來自m***k(**的評論:

基本上數(shù)據(jù)挖掘的算法都有了,用了R語言來實現(xiàn)

2017-07-03 21:23:52
來自匿名用**的評論:

很不錯 好

2017-07-21 14:37:11
來自無昵稱**的評論:

類目非常全 很不錯的書

2017-07-24 12:44:43
來自l***0(**的評論:

很好,正版的。

2017-07-25 06:36:36
來自匿名用**的評論:

活動很給力,幫朋友買的

2017-08-02 10:57:22
來自binstar**的評論:

內(nèi)容不錯,學(xué)習(xí)一下大數(shù)據(jù)的實際案例。

2017-08-04 06:35:44
來自匿名用**的評論:

幫別人買的書,一般我都挑著優(yōu)惠一些的來買。

2017-08-17 14:30:17
來自身體與**的評論:

很不錯,就是,就是,有點厚啊,耐心啃吧

2017-08-25 20:59:59
來自匿名用**的評論:

幫別人買的書。

2017-09-01 17:20:21
來自無昵稱**的評論:

不錯啊不錯不錯不錯啊不錯不錯不錯啊不錯不錯

2017-10-12 12:14:05
來自無昵稱**的評論:

不錯的話。

2017-10-17 07:06:05
來自無昵稱**的評論:

不錯不錯!

2017-10-31 11:38:27
來自匿名用**的評論:

書名有點托大,內(nèi)容上預(yù)測的東西沒那么多篇幅

2017-09-08 20:27:54
來自匿名用**的評論:

基本上數(shù)據(jù)挖掘的算法都有了,用了R語言來實現(xiàn)

2017-06-16 23:15:03
來自金融碼**的評論:

數(shù)據(jù)挖掘與預(yù)測分析(第2版) 好端端的一本書給我摔成這樣!我買的是新書不是破書!

2017-08-10 12:11:45

免責(zé)聲明

更多出版社
主站蜘蛛池模板: 蕲春县| 阿尔山市| 宿州市| 阳高县| 惠州市| 万安县| 静安区| 渑池县| 临漳县| 孝昌县| 封开县| 绥江县| 临朐县| 河池市| 和静县| 丰宁| 夹江县| 西乌珠穆沁旗| 周口市| 镇平县| 理塘县| 青冈县| 北流市| 新宾| 泰宁县| 崇信县| 邵东县| 正安县| 尉犁县| 营口市| 武宁县| 大石桥市| 喀喇沁旗| 巴塘县| 云安县| 东乡族自治县| 灵丘县| 墨江| 昌平区| 社会| 临泽县|