在學習和研究機器學習的時候,面臨令人眼花繚亂的算法,機器學習新手往往會不知 所措。本書從算法和Python 語言實現的角度,幫助讀者認識機器學習。 本書專注于兩類核心的“算法族”,即懲罰線性回歸和集成方法,并通過代碼實例來 展示所討論的算法的使用原則。全書共分為7 章,詳細討論了預測模型的兩類核心算法、預測模型的構建、懲罰線性回歸和集成方法的具體應用和實現。 本書主要針對想提高機器學習技能的Python 開發人員,幫助他們解決某一特定的項 目或是提升相關的技能。
機器學習關注于預測,其核心是一種基于數學和算法的技術,要掌握該技術,需要對數學及統計概念有深入理解,能夠熟練使用R 語言或者其他編程語言。 本書通過集中介紹兩類可以進行有效預測的機器學習算法,展示了如何使用Python 編程語言完成機器學習任務,從而降低機器學習難度,使機器學習能夠被更廣泛的人群掌握。 作者利用多年的機器學習經驗帶領讀者設計、構建并實現自己的機器學習方案。本書盡可能地用簡單的術語來介紹算法,避免復雜的數學推導,同時提供了示例代碼幫助讀者迅速上手。讀者會很快深入了解模型構建背后的原理,不論簡單問題還是復雜問題,讀者都可以學會如何找到問題的解決算法。書中詳細的示例,給出了具體的可修改的代碼,展示了機器學習機理,涵蓋了線性回歸和集成方法,幫助理解使用機器學習方法的基本流程。 本書為不具備數學或統計背景的讀者量身打造,詳細介紹了如何: ● 針對任務選擇合適算法; ● 對不同目的應用訓練好的模型; ● 學習數據處理機制,準備數據; ● 評估模型性能以保障應用效果; ● 掌握Python 機器學算法包; ● 使用示例代碼設計和構建你自己的模型; ● 構建實用的多功能預測模型。
Michael Bowles 在硅谷黑客道場教授機器學習,提供機器學習項目咨詢,同時參與了多家創業公司,涉及的領域包括生物信息學、金融高頻交易等。他在麻省理工學院獲得助理教授教職后,創建并運營了兩家硅谷創業公司,這兩家公司都已成功上市。他在黑客道場的課程往往聽者云集并且好評頗多。
目錄
第1章 關于預測的兩類核心
算法 ................................................1
1.1為什么這兩類算法如此有用 .......1
1.2什么是懲罰回歸方法.....................6
1.3什么是集成方法 .............................8
1.4算法的選擇 ......................................9
1.5構建預測模型的流程...................11
1.5.1構造一個機器學習問題 ......12
1.5.2特征提取和特征工程 ..........14
1.5.3確定訓練后的模型的性能 .....15
1.6各章內容及其依賴關系 ..............15
1.7小結 .................................................17
1.8參考文獻 ........................................17
第2章 通過理解數據來了解
問題 ..............................................19
2.1“解剖”一個新問題 .....................19
2.1.1屬性和標簽的不同類型
決定模型的選擇..................21
2.1.2新數據集的注意事項 ..........22
2.2分類問題:用聲納發現未
爆炸的水雷....................................23
2.2.1“ 巖石vs 水雷”數據集的
物理特性..............................23
2.2.2“ 巖石vs 水雷”數據集統計
特征......................................27
2.2.3用分位數圖展示異常點 ......30
2.2.4類別屬性的統計特征 ..........32
2.2.5利用Python Pandas 對“巖石
vs水雷”數據集進行統計
分析......................................32
2.3對“巖石vs 水雷數據集”屬性的
可視化展示....................................35
2.3.1利用平行坐標圖進行可視化
展示......................................35
2.3.2屬性和標簽的關系可視化 .....37
2.3.3用熱圖(heat map)展示
屬性和標簽的相關性..........44
2.3.4對“巖石vs. 水雷”數據集
探究過程小結......................45
2.4基于因素變量的實數值預測-
鮑魚的年齡....................................45
2.4.1回歸問題的平行坐標圖- 鮑魚
問題的變量關系可視化......51
2.4.2回歸問題如何使用關聯熱
圖-鮑魚問題的屬性對關
系的可視化..........................55
2.5用實數值屬性預測實數值目標:
評估紅酒口感................................57
2.6多類別分類問題:它屬于哪種
玻璃.................................................63
小結............................................................68
參考文獻...................................................69
第3章 預測模型的構建:平衡性
能、復雜性以及大數據....71
3.1基本問題:理解函數逼近..........71
3.1.1使用訓練數據 ......................72
3.1.2評估預測模型的性能 ..........73
3.2影響算法選擇及性能的因素——
復雜度以及數據...........................74
3.2.1簡單問題和復雜問題的
對比......................................74
3.2.2一個簡單模型與復雜模型的
對比......................................77
3.2.3影響預測算法性能的因素 ....80
3.2.4選擇一個算法:線性或者
非線性..................................81
3.3度量預測模型性能 .......................81
3.3.1不同類型問題的性能評價
指標......................................82
3.3.2部署模型的性能模擬 ..........92
3.4模型與數據的均衡 .......................94
3.4.1通過權衡問題復雜度、模型
復雜度以及數據集規模來選
擇模型..................................94
3.4.2使用前向逐步回歸來控制過
擬合......................................95
3.4.3評估并理解你的預測模型....101
3.4.4通過懲罰回歸系數來控制
過擬合——嶺回歸............103
小結..........................................................112
參考文獻.................................................112
第4章 懲罰線性回歸模型 ..........113
4.1為什么懲罰線性回歸方法如此
有效...............................................113
4.1.1足夠快速地估計系數 ........114
4.1.2變量的重要性信息 ............114
4.1.3部署時的預測足夠快速 ....114
4.1.4性能 ............................114
4.1.5稀疏解 ................................115
4.1.6問題本身可能需要線性
模型....................................115
4.1.7什么時候使用集成方法 ....115
4.2懲罰線性回歸:對線性回歸進行
正則化以獲得性能............115
4.2.1訓練線性模型:最小化錯誤
以及更多............................117
4.2.2向OLS 公式中添加一個
系數懲罰項........................118
4.2.3其他有用的系數懲罰項:
Manhattan以及ElasticNet .....118
4.2.4為什么套索懲罰會導致稀疏的
系數向量............................119
4.2.5ElasticNet 懲罰項包含套索
懲罰項以及嶺懲罰項........120
4.3求解懲罰線性回歸問題 ............121
4.3.1理解最小角度回歸與前向逐步
回歸的關系........................121
4.3.2LARS 如何生成數百個不同
復雜度的模型....................125
4.3.3從數百個LARS 生成結果中
選擇模型....................127
4.3.4使用Glmnet :非常快速
并且通用............................133
4.4基于數值輸入的線性回歸方法的
擴展...............................................140
4.4.1使用懲罰回歸求解分類
問題....................................140
4.4.2求解超過2 種輸出的分類
問題....................................145
4.4.3理解基擴展:使用線性方法來
解決非線性問題................145
4.4.4向線性方法中引入非數值
屬性....................................148
小結..........................................................152
參考文獻.................................................153
第5章 使用懲罰線性方法來
構建預測模型.....................155
5.1懲罰線性回歸的Python 包 .....155
5.2多變量回歸:預測紅酒口感 ...156
5.2.1構建并測試模型以預測紅酒
口感....................................157
5.2.2部署前在整個數據集上進行
訓練....................................162
5.2.3基擴展:基于原始屬性擴展
新屬性來改進性能............168
5.3二分類:使用懲罰線性回歸來
檢測未爆炸的水雷.....................172
5.3.1構建部署用的巖石水雷
分類器................................183
5.4多類別分類- 分類犯罪現場的
玻璃樣本......................................196
小結..........................................................201
參考文獻.................................................202
第6章 集成方法 .................................203
6.1二元決策樹 ..................................203
6.1.1如何利用二元決策樹進行
預測....................................205
6.1.2如何訓練一個二元決策樹....207
6.1.3決策樹的訓練等同于
分割點的選擇....................211
6.1.4二元決策樹的過擬合 ........214
6.1.5針對分類問題和類別特征
所做的修改........................218
6.2自舉集成:Bagging 算法 .........219
6.2.1Bagging 算法是如何
工作的................................219
6.2.2Bagging 算法小結 .............230
6.3梯度提升法(Gradient
Boosting).....................................230
6.3.1梯度提升法的基本原理 ....230
6.3.2獲取梯度提升法的
性能....................................234
6.3.3針對多變量問題的梯度
提升法................................237
6.3.4梯度提升方法的小結 ........241
6.4隨機森林 ......................................241
6.4.1隨機森林:Bagging 加上隨機
屬性子集............................246
6.4.2隨機森林的性能 ................246
6.4.3隨機森林小結 ....................247
6.5小結 ...............................................248
6.6參考文獻 ......................................248
第7章 用Python 構建集成
模型............................................251
7.1用Python 集成方法工具包解決
回歸問題......................................251
7.1.1構建隨機森林模型來預測
紅酒口感............................251
7.1.2用梯度提升預測紅酒品質 ....258
7.2用Bagging 來預測紅酒口感 ....266
7.3Python 集成方法引入非數值
屬性...............................................271
7.3.1對鮑魚性別屬性編碼引入
Python隨機森林回歸
方法....................................271
7.3.2評估性能以及變量編碼的
重要性................................274
7.3.3在梯度提升回歸方法中引入
鮑魚性別屬性....................276
7.3.4梯度提升法的性能評價以及
變量編碼的重要性............279
7.4用Python 集成方法解決二分類
問題...............................................282
7.4.1用Python 隨機森林方法探測
未爆炸的水雷....................282
7.4.2構建隨機森林模型探測未
爆炸水雷............................283
7.4.3隨機森林分類器的性能 ....288
7.4.4用Python 梯度提升法探測
未爆炸水雷........................289
7.4.5梯度提升法分類器的性能....296
7.5用Python 集成方法解決多類別
分類問題......................................300
7.5.1用隨機森林對玻璃進行
分類....................................300
7.5.2處理類不均衡問題 ............304
7.5.3用梯度提升法對玻璃進行
分類....................................306
7.5.4評估在梯度提升法中使用隨機
森林基學習器的好處........311
7.6算法比較 ......................................313
小結..........................................................315
參考文獻.................................................315
很好!很好!很好!
包裝不錯,紙箱結實。快遞員服務很好,送到小區門口,很耐心。就是有兩本門缺貨,沒有送。
上手很快,概念和代碼均有詳細介紹,而且介紹的幾種算法都是主流的,挺適合新手和實戰學習的
很快,很好,很開心。正版包裝,外有塑料膜。
總體來說不錯的,物流很快,質量很好
這本書還沒有時間讀,默認給好評
書籍還行,比國內同類型的書還是要好的多
ting不錯de,挺詳細的~贊
書不錯,包裝也好,有時間好好看。
還沒看,應該還行
還好吧。。。有空學習一下。
很好的一本書
還沒讀,不過感覺不錯
買來學習機器學習的,有空就翻翻,發貨速度很快,第二天就到貨。
書中太多代碼了,而且代碼里面還沒有注解,覺得寫得不太認真,不值得這個價錢
1分給印刷,1分給紙張,1分給還算詳細的介紹;遺留的不少機器翻譯扣1分,不少縮進、代碼的符號錯誤扣1分
有點買錯了,暫時好像還用不到。還需要繼續學習。
這是目前機器學習介紹比較清楚的書。很多書十分數學化,我想大部分用戶還是更關心利用機器學習可以解決什么問題。該書中介紹的眾多分類案例,可以為讀者模型選型作參考
數學公式推導下,代碼動手敲,基本知識就全懂了
應用類,可以參考學習,和其他機器學習一樣都是淺
滿二百減一百時候買的,很不錯,書的內容正在學習
關于機器學習方法選擇的書,有源代碼,很不錯,需要有python基礎
挺好的 比較滿意挺好的 比較滿意挺好的 比較滿意
這個商品( ^_^ )不錯嘛,當當活動,有減滿。搞機器學習的,python還需要好好學學。
其實就是現代版周易,研究大數據周期性變化規律
挺好,個人覺得比較適合入門的,但是盡信書不如無書,里面有些文字錯誤和翻譯錯誤的,得自己辨別
翻譯生硬,文字排版錯誤很多,一直以為人民郵電出版社的書都是精品,可惜這本書顛覆了我的印象。買了那么多年書而從不評價的我都忍不住吐槽,不建議購買
紙質可以,有點光滑,粗略看了一下內容還可以,但有些和機器學習實戰重復的!代碼是在ubuntu系統下運行,要是window下要適當修改!