大數據時代的到來,使我們的生活在政治、經濟、社會、文化各個領域都產生了很大改變。“數據科學”一詞應運而生。如何更好地對海量數據進行分析、得出結論并做出智能決策是統計工作者面臨的機遇與挑戰。
本書介紹數據挖掘與統計機器學習領域最常用的模型和算法,包括最基礎的線性回歸和線性分類方法,以及模型選擇和模型評價的概念和方法,進而介紹非線性的回歸和分類方法(包括決策樹與組合方法、支持向量機、神經網絡以及在此基礎上發展的深度學習方法)。介紹無監督的學習中的聚類方法和業界廣泛使用的推薦系統方法。除了方法的理論講解之外,我們給出了每種方法的R語言實現,以及應用Python語言實現深度學習和支持向量機兩種方法。本書的一個亮點是一章給出的兩個大數據案例,數據量均在10G左右。我們同時給出了單機版(Python、數據庫、R)和分布式(Hadoop、Hive、Spark)兩種實現方案。原始數據和程序代碼均可在出版社提供的網址下載。
本書面向的主要讀者是應用統計專業碩士,希望能夠拓展到統計專業高年級的本科生以及其他各個領域有數據分析需求的學生和從業人員。
導語_點評_推薦詞
呂曉玲,吉林省吉林市人。現任中國人民大學統計學院副教授,北京五校聯合大數據分析碩士培養協同創新平臺總協調人。本科與碩士畢業于南開大學數學系概率統計專業,博士畢業于香港城市大學管理科學系。曾經是奧地利約翰開普勒大學應用統計系以及美國加州大學伯克利分校統計系訪問學者。一直從事數據挖掘和統計機器學習領域的理論研究,及其在消費者行為方面的應用研究。在數據挖掘以及市場營銷方面的項目涉及的領域包括銀行、電子商務、交通、教育、廣播電視、移動互聯網等。
宋捷,四川眉山人。現任首都經濟貿易大學統計學院副教授。本科與碩士畢業于四川大學數學系概率統計專業,博士畢業于中國人民大學統計學院。一直從事機器學習與數據挖掘相關領域的理論研究。
第1章概述
1.1名詞演化
1.2基本內容
1.3數據智慧
第2章線性回歸方法
2.1多元線性回歸
2.2壓縮方法:嶺回歸與Lasso
2.3Lasso 模型的求解與理論性質
2.4損失函數加罰的建模框架
2.5上機實踐
第3章線性分類方法
3.1分類問題綜述與評價準則
3.2Logistic回歸
3.3線性判別
3.4上機實踐
第4章模型評價與選擇
4.1基本概念
4.2理論方法
4.3數據重利用方法
4.4上機實踐
第5章決策樹與組合方法
5.1決策樹
5.2Bagging
5.3Boosting
5.4隨機森林
5.5上機實踐
第6章神經網絡與深度學習
6.1神經網絡
6.2深度學習
6.3上機實踐
第7章支持向量機
7.1線性可分支持向量機
7.2軟間隔支持向量機
7.3一些拓展
7.4上機實踐
第8章聚類分析
8.1基于距離的聚類
8.2基于模型和密度的聚類
8.3稀疏聚類
8.4雙向聚類
8.5上機實踐
第9章推薦系統
9.1基于鄰居的推薦
9.2潛在因子與矩陣分解算法
9.3上機實踐
第10章大數據案例分析
10.1智能手機用戶監測數據案例分析
10.2美國航空數據案例分析
參考文獻
大數據挖掘與統計機器學習
大數據時代的到來,使我們的生活在政治、經濟、社會、文化各個領域都產生了很大改變。“數據科學”一詞應運而生。如何更好地對海量數據進行分析、得出結論并做出智能決策是統計工作者面臨的機遇與挑戰。
本書介紹數據挖掘與統計機器學習領域最常用的模型和算法,包括最基礎的線性回歸和線性分類方法,以及模型選擇和模型評價的概念和方法,進而介紹非線性的回歸和分類方法(包括決策樹與組合方法、支持向量機、神經網絡以及在此基礎上發展的深度學習方法)。介紹無監督的學習中的聚類方法和業界廣泛使用的推薦系統方法。除了方法的理論講解之外,我們給出了每種方法的R語言實現,以及應用Python語言實現深度學習和支持向量機兩種方法。本書的一個亮點是一章給出的兩個大數據案例,數據量均在10G左右。我們同時給出了單機版(Python、數據庫、R)和分布式(Hadoop、Hive、Spark)兩種實現方案。原始數據和程序代碼均可在出版社提供的網址下載。
本書面向的主要讀者是應用統計專業碩士,希望能夠拓展到統計專業高年級的本科生以及其他各個領域有數據分析需求的學生和從業人員。對于側重應用的初學者,可略過帶星號的章節。
本書由呂曉玲撰寫第1章、第2章、第10章,呂曉玲、潘蕊合寫第4章和第5章,呂曉玲、宋捷合寫第3章、第7章,古楠楠撰寫第6章,褚挺進撰寫第8章,尹建鑫撰寫第9章,由呂曉玲統稿校對。
感謝北京五校聯合(中國人民大學、北京大學、中國科學院大學、中央財經大學、首都經濟貿易大學)大數據分析碩士培養協同創新平臺的所有領導和教師;感謝中國人民大學出版社的鼎力支持;感謝中國人民大學數據挖掘中心(wwwrucdmcnet)的學生參與本書的寫作和校對,他們是:鐘琰、王小寧、劉擷芯、王高斌、安夢穎、胡見秋、范一葦、蘇嘉楠、程豪、范超、要卓、李天博、林毓聰、閆晗、劉夢杭、孫亞楠、董峰池。
數據挖掘與統計機器學習是一個方興未艾、蓬勃發展的學科領域,鑒于作者的能力和時間非常有限,本書的內容難免有不足和紕漏,還望廣大讀者不吝賜教,多提寶貴意見。
還行
還沒看
好書
還不錯的感覺,好評
下次還來買
好
當當給力,書全,還有圖書的清單,這點比某東好。
一直在當當上買書,挺好!
非常好的商品,適合入門
商品很不錯。。。。。
很好,謝謝!
非常好看的書,正版,便宜
剛收到,物流包裝都很好, 應該是正版的 ,看后再評吧
盜版書目,服了
數據分析用書!
這個非常不錯啊
作為參考教材還是不錯的!
書籍在他們一生中起了無比重大的作用。
很好,正版的。
到貨速度快,贊贊贊贊贊贊贊贊贊贊贊贊
書不錯 認真學習去了 紙質很好 全新正版
紙張很好!
好,很不錯的書
上課用,應該好用
很久沒有看到一本如此另外興奮的圖書了,好的故事就是有一種能撩撥人心的能力,它把你拉進去,讓你仿若置身其中,跟著主人公開啟一段旅程。
這個商品很不錯
書還行,就是感覺當當快遞沒有之前快了,下午三四點才到
包裝袋是壞的,然后都是土,難道是沙塵暴造成的?
這是一件非常好的產品,非常實用,質量得到保證,物流速度也很快,我非常滿意。 這是一件非常好的產品,非常實用,質量得到保證,物流速度也很快,我非常滿意。