這是公認(rèn)的、的適合教學(xué)和零基礎(chǔ)自學(xué)的R語言與數(shù)據(jù)挖掘教程,華南師范大學(xué)、廣東工業(yè)大學(xué)、廣西科技大學(xué)等20余所大學(xué)選為教材。即便你沒有R語言編程基礎(chǔ)和數(shù)據(jù)挖掘基礎(chǔ),根據(jù)本書中的理論知識和上機(jī)實(shí)踐,你也能迅速掌握如何使用R語言進(jìn)行數(shù)據(jù)挖掘。本書已經(jīng)被多少高校預(yù)定為教材,為了便于教學(xué),書中還提供了大量的上機(jī)實(shí)驗(yàn)和教學(xué)資源。
本書主要分為三個部分:
基礎(chǔ)篇(1~5章),主要包括R語言及圖形操作工具RStudio的安裝及使用方法、數(shù)據(jù)類型和數(shù)據(jù)對象、數(shù)據(jù)預(yù)處理的常用操作(包括數(shù)據(jù)重命名、缺失值分析、排序、抽樣等)、繪圖功能(包括散點(diǎn)圖、直方圖、條形圖、箱線圖等)。
建模應(yīng)用篇(6~10章),主要對數(shù)據(jù)挖掘中的常用算法的函數(shù)在R語言中的使用方法及其結(jié)果解釋進(jìn)行了介紹。涵蓋了目前數(shù)據(jù)挖掘的5大類算法,包括分類與預(yù)測、聚類分析、關(guān)聯(lián)規(guī)則、智能推薦和時序模式。按照模型建立至模型評價的架構(gòu)進(jìn)行介紹,使讀者能熟練的掌握從建模到對模型評價的完整建模過程。
Rattle篇(11章),此工具能夠在一個圖形化的界面上對本書所介紹的R語言功能進(jìn)行操作,使讀者能更好的體驗(yàn)到使用R語言進(jìn)行數(shù)據(jù)挖掘的整個流程。
書中配套提供了原始樣本數(shù)據(jù)文件及對應(yīng)章節(jié)示例代碼。每個章節(jié)有對應(yīng)的練習(xí)實(shí)驗(yàn)和教學(xué)PPT,讀者可通過完成對應(yīng)的練習(xí),迅速掌握R語言的用法和數(shù)據(jù)挖掘的方法。
10余位數(shù)據(jù)挖掘領(lǐng)域博學(xué)專家和科研人員,10余年大數(shù)據(jù)挖掘咨詢與實(shí)施經(jīng)驗(yàn)結(jié)晶。
為零基礎(chǔ)R語言與數(shù)據(jù)挖掘教學(xué)和自學(xué)量身打造,系統(tǒng)講解R語言與數(shù)據(jù)挖掘的必備知識,配有大量的上機(jī)實(shí)驗(yàn)、源代碼和教學(xué)PPT資源。
張良均
博學(xué)大數(shù)據(jù)挖掘?qū)<遥呒壭畔㈨?xiàng)目管理師,有近20年的大數(shù)據(jù)挖掘應(yīng)用、咨詢和培訓(xùn)經(jīng)驗(yàn),被稱為“中國大數(shù)據(jù)挖掘培訓(xùn)教父”。為電信、電力、政府、互聯(lián)網(wǎng)、生產(chǎn)制造、零售、銀行、生物、化工、醫(yī)藥等多個行業(yè)上百家大型企業(yè)提供過數(shù)據(jù)挖掘應(yīng)用與咨詢服務(wù),實(shí)踐經(jīng)驗(yàn)豐富。現(xiàn)任廣東工業(yè)大學(xué)、華南師范大學(xué)、華南農(nóng)業(yè)大學(xué)等6所高校兼職教授。著有《神經(jīng)網(wǎng)絡(luò)實(shí)用教程》《數(shù)據(jù)挖掘:實(shí)用案例分析》《R語言數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》等暢銷圖書。
謝佳標(biāo)
博學(xué)R語言專家,多次于中國R語言大會發(fā)表演講,具有十余年的數(shù)據(jù)挖掘?qū)崙?zhàn)經(jīng)驗(yàn)。目前于某上市互聯(lián)網(wǎng)游戲公司,任高級數(shù)據(jù)分析師,負(fù)責(zé)大數(shù)據(jù)挖掘及可視化。培訓(xùn)過的精品課程有:《R語言基礎(chǔ)培訓(xùn)》《數(shù)據(jù)分析之R語言實(shí)戰(zhàn)》《機(jī)器學(xué)習(xí)與R語言實(shí)踐》等。
萬正勇
某國際投行VP,有超過10年的金融系統(tǒng)大數(shù)據(jù)挖掘及分析經(jīng)驗(yàn),超過15年的大型金融機(jī)構(gòu)核心交易系統(tǒng)規(guī)劃設(shè)計(jì)開發(fā)經(jīng)驗(yàn)。數(shù)據(jù)庫及中間件專家,先后獲得中國首屆十大杰出數(shù)據(jù)庫工程師,Oracle 中間件 ACE Director以及 Oracle 數(shù)據(jù)庫 ACE 等稱號。曾為電信,電力,航空,銀行,保險,互聯(lián)網(wǎng),交通,制造等等行業(yè)相關(guān)龍頭企業(yè)提供過咨詢服務(wù)。著有《衍生數(shù)學(xué)》,《Oracle數(shù)據(jù)庫DBA專題技術(shù)精粹》等暢銷書。
前 言
及時部分 基礎(chǔ)篇
第1章 R語言的安裝與使用 2
1.1 R安裝與升級 3
1.2 R使用入門 4
1.2.1 R操作界面 4
1.2.2 RStudio窗口介紹 5
1.2.3 R常用操作 6
1.3 R數(shù)據(jù)分析包 8
1.4 配套資源使用說明 10
1.5 小結(jié) 10
1.6 上機(jī)實(shí)驗(yàn) 10
第2章 數(shù)據(jù)對象與數(shù)據(jù)讀寫 12
2.1 數(shù)據(jù)類型 12
2.2 數(shù)據(jù)結(jié)構(gòu) 16
2.2.1 向量 16
2.2.2 矩陣 19
2.2.3 數(shù)組 24
2.2.4 數(shù)據(jù)框 25
2.2.5 因子 28
2.2.6 列表 31
2.3 數(shù)據(jù)文件的讀寫 34
2.3.1 鍵盤輸入數(shù)據(jù) 34
2.3.2 讀取不同格式的數(shù)據(jù) 35
2.3.3 從其他統(tǒng)計(jì)軟件獲取數(shù)據(jù) 37
2.3.4 從數(shù)據(jù)庫獲取數(shù)據(jù) 37
2.3.5 從網(wǎng)頁獲取數(shù)據(jù) 39
2.4 小結(jié) 40
2.5 上機(jī)實(shí)驗(yàn) 40
第3章 R語言常用數(shù)據(jù)管理 42
3.1 變量的重命名 42
3.2 缺失值分析 45
3.3 數(shù)據(jù)排序 46
3.4 隨機(jī)抽樣 48
3.5 數(shù)值運(yùn)算函數(shù) 49
3.6 字符串處理 52
3.7 文本分詞 56
3.8 apply函數(shù)族 62
3.9 數(shù)據(jù)整合 65
3.10 控制流 68
3.11 函數(shù)的編寫 71
3.12 小結(jié) 72
3.13 上機(jī)實(shí)驗(yàn) 73
第4章 圖形探索 75
4.1 圖形元素 76
4.1.1 顏色 76
4.1.2 點(diǎn) 80
4.1.3 文本 82
4.1.4 線條 86
4.1.5 圖例 91
4.1.6 坐標(biāo)軸 92
4.2 圖形組合 94
4.3 圖形保存 97
4.4 圖形函數(shù) 98
4.5 小結(jié) 116
4.6 上機(jī)實(shí)驗(yàn) 116
第5章 高級繪圖工具 117
5.1 lattice包繪圖工具 117
5.1.1 繪圖特色 117
5.1.2 基本圖形 122
5.2 ggplot2包繪圖工具 135
5.2.1 從qplot開始 135
5.2.2 ggplot作圖 137
5.3 交互式繪圖工具簡介 142
5.3.1 rCharts包 143
5.3.2 recharts包 147
5.3.3 googleVis包 147
5.3.4 htmlwidgets包 148
5.3.5 shiny包 153
5.4 小結(jié) 163
5.5 上機(jī)實(shí)驗(yàn) 163
第二部分 建模應(yīng)用篇
第6章 分類與預(yù)測 166
6.1 回歸分析 166
6.2 決策樹 175
6.2.1 C4.5算法 176
6.2.2 CART算法 178
6.2.3 C5.0算法 180
6.3 人工神經(jīng)網(wǎng)絡(luò) 181
6.4 KNN算法 183
6.5 樸素貝葉斯分類 185
6.6 其他分類與預(yù)測算法函數(shù) 187
6.7 分類與預(yù)測算法評價 192
6.8 小結(jié) 196
6.9 上機(jī)實(shí)驗(yàn) 196
第7章 聚類分析 198
7.1 K-Means聚類分析函數(shù) 199
7.2 層次聚類算法 204
7.3 其他聚類分析函數(shù) 207
7.4 小結(jié) 211
7.5 上機(jī)實(shí)驗(yàn) 212
第8章 關(guān)聯(lián)規(guī)則 213
8.1 Apriori關(guān)聯(lián)規(guī)則 214
8.2 小結(jié) 226
8.3 上機(jī)實(shí)驗(yàn) 226
第9章 智能推薦 228
9.1 智能推薦模型構(gòu)建 228
9.2 智能推薦模型評價 232
9.3 小結(jié) 235
9.4 上機(jī)實(shí)驗(yàn) 235
第10章 時間序列 237
10.1 ARIMA模型 237
10.2 其他時間序列模型 245
10.3 小結(jié) 250
10.4 上機(jī)實(shí)驗(yàn) 251
第三部分 Rattle篇
第11章 可視化數(shù)據(jù)挖掘工具Rattle 254
11.1 Rattle簡介及其安裝 254
11.1.1 Rattle簡介 254
11.1.2 Rattle安裝 254
11.2 功能預(yù)覽 255
11.3 數(shù)據(jù)導(dǎo)入 256
11.3.1 導(dǎo)入CSV數(shù)據(jù) 256
11.3.2 導(dǎo)入ARFF數(shù)據(jù) 261
11.3.3 導(dǎo)入ODBC數(shù)據(jù) 262
11.3.4 R Dataset——導(dǎo)入其他數(shù)據(jù)源 264
11.3.5 導(dǎo)入RData File數(shù)據(jù)集 267
11.3.6 導(dǎo)入Library數(shù)據(jù) 268
11.4 數(shù)據(jù)探索 269
11.4.1 數(shù)據(jù)總體概況 269
11.4.2 數(shù)據(jù)分布探索 272
11.4.3 相關(guān)性 275
11.4.4 主成分 277
11.4.5 交互圖 278
11.5 數(shù)據(jù)建模 283
11.5.1 聚類分析 283
11.5.2 關(guān)聯(lián)規(guī)則 288
11.5.3 決策樹 291
11.5.4 隨機(jī)森林 293
11.6 模型評估 296
11.6.1 混淆矩陣 296
11.6.2 風(fēng)險圖 296
11.6.3 ROC圖及相關(guān)圖表 297
11.6.4 模型得分?jǐn)?shù)據(jù)集 298
11.7 小結(jié) 299
11.8 上機(jī)實(shí)驗(yàn) 299
參考資料 301