令人著迷的,有趣的……—— 《西雅圖郵訊報》
全書充滿了生動的例子……——《金融時報》
作為大數據的核心應用,預測正在繁榮發展。它改寫了行業,驅動世界向前。潮流引領者比如大通銀行、臉譜網、谷歌、HP、IBM、Match.com、網飛公司、優步等正借助大數據的力量對人類的行為進行預測——其中也包括你的。公司、政府、執法機關、醫院和高校正利用來自預測的力量,預測你否會點擊、購買、撒謊或者死去。
為什么要對人類的行為進行預測?我們有充分的理由:預測人類行為,可以戰勝危機、促進銷售、提升醫療保健、簡化生產流程、攔截垃圾信息、優化社交網絡、強化打擊犯罪,以及贏得選舉,等等。
預測由世界上有效、豐富的非自然資源——數據驅動。作為人們各種日常及社會活動的副產品,數據正在被不斷被記錄和整理,并日漸成為一座金礦。大數據技術通過對數據進行學習,正不斷釋放數據的能量。 令人著迷的, 有趣的……—— 《西雅圖郵訊報》
全書充滿了生動的例子……——《金融時報》
作為大數據的核心應用,預測正在繁榮發展。它改寫了行業,驅動世界向前。潮流引領者比如大通銀行、臉譜網、谷歌、HP、IBM、Match.com、網飛公司、優步等正借助大數據的力量對人類的行為進行預測——其中也包括你的。公司、政府、執法機關、醫院和高校正利用來自預測的力量,預測你否會點擊、購買、撒謊或者死去。
為什么要對人類的行為進行預測?我們有充分的理由:預測人類行為,可以戰勝危機、促進銷售、提升醫療保健、簡化生產流程、攔截垃圾信息、優化社交網絡、強化打擊犯罪,以及贏得選舉,等等。
預測由世界上有效、豐富的非自然資源——數據驅動。作為人們各種日常及社會活動的副產品,數據正在被不斷被記錄和整理,并日漸成為一座金礦。大數據技術通過對數據進行學習,正不斷釋放數據的能量。
在這本內容豐富、有趣的書中,預測分析專家埃里克•西格爾解讀了預測是如何工作和影響我們每個人的。它不僅是一本技術實踐指導手冊,更通過提供新的研究案例以及前沿技術,幫助普通讀者和專業人士更好地了解大數據預測。
!! “得到”創始人羅振宇、360公司創始人周鴻祎理性推薦,了解大數據預測必讀書目;
!!獲獎作品,全球翻譯為9種語言,美國30多所大學選為課堂教材;
!!預測分析頂ji專家生動有趣解說數據與預測技術,本書是了解預測技術不容錯過的實踐指導手冊,修訂版增加zui新企業研究案例;
!!一點預測,無限可能。預測連接過去與未來,預測技術的應用貫穿商業、政界、醫療、高校和執法系統。身處預測繁榮發展的時代,想知道我們的世界會因為預測變成什么樣子,來讀《大數據預測》。
埃里克 西格爾, 博士, Predictive Analytics World創始人,《預測時報》( The Predictive Analytics Times)主編,前哥倫比亞大學教授,預測分析領域知名演講人、教育家和領導者。
序言
前言 預測分析的職業風險
導論 預測效應
及時章升空!預測開始發威
開始實踐
人人愛預言,雖然不
防護預測
價值100 萬美元的無聲革命
個性化的危險
預測分析程序的安裝:迂回和拖延
運行過程中
基本要素:觀察
序 言
前 言 預測分析的職業風險
導 論 預測效應
及時章 升空!預測開始發威
開始實踐
人人愛預言,雖然不
防護預測
價值100 萬美元的無聲革命
個性化的危險
預測分析程序的安裝:迂回和拖延
運行過程中
基本要素:觀察
行動就是決策
危險的啟動
呼叫休斯敦,我們有麻煩了
能做到的小模型
休斯敦,發射
熱情的科學家
讓預測走入內心
第二章 權力越大,責任越大:惠普、Target超市、警察和美國國家安全局會窺探你的秘密
Target 超市的預測及其預測目標
意味深長的停頓
我的15 分鐘
曝光于聚光燈下
你無法禁錮那些可傳輸的東西
法律與秩序:政策和數據監管
數據之戰
數據挖掘并不是“攫取”數據
惠普自我學習
洞悉員工還是侵犯隱私
辭職風險:我不干了!
洞見:辭職背后的因素
危險品
辭職風險評估的價值
預測犯罪,提前杜絕犯罪
數據犯罪和犯罪數據
無法測量的機器風險
偏見的輪回
好的預測 壞的預測
第三章 數據效應:彩虹之后的饕餮
焦慮指數
將情緒可視化
在數據里尋寶
一切都數據化
把所有艙門都封死:信息太多了
誰的數據會成為你的囊中之物?
彩虹之末
預測之汁
遙遠、奇特和驚人的洞察力
有關系,并不意味著是因果關系
第四章 學習的機器:大通銀行對房產抵押風險的預測分析
男孩與銀行的相遇
銀行面臨著風險
預測抵御風險
風險業務
學習機器
創建機器學習
從負面經驗中學習
機器如何學習
你可以決定決策樹的規模
計算機,為自己編程吧
學吧,寶貝
越大越好
過度學習:假設太多
歸納之謎
機器學習的藝術和科學
感覺真實:測試數據
去粗取精是藝術
在大通銀行應用分類—回歸決策樹
搖錢樹
回歸—為何顯微鏡無法觀察到宇宙碰撞
后續
第五章 集團效應:Netflix、眾包以及增壓預測
業余火箭科學家
黑馬
思想外包:集思廣益
眾包如星火燎原
生于憂患
聯合國
元學習
兩個預測模型的組合
好戲在后頭
集體信息
群體和模型的智慧
一袋子模型
集體智慧開始發威
泛化悖論:過猶不及
挑戰極限
第六章 “沃森”和《危險邊緣》節目
文本分析
英語的愛恨情仇
在理解問題之后就要回答
知識終極源泉
人工智能悖論
學習回答問題
學人走路,學人說話
更好的捕鼠器
應答機器
投機取巧的《危險邊緣》
從證據中尋找答案
基礎知識,親愛的“沃森”
證據如山
用組合模型來判斷證據
組合模型的組合
機器學習使自然語言處理成為可能
自信但不自負
需要速度
雙重危險—“沃森”會贏嗎?
《危險邊緣》的惶恐
為了勝利
比賽之后:榮譽、嘉獎和崇拜
非對稱性IBM 人工智能
對的預測
第七章 用數字說話:挪威電信和美國合眾銀行工程師
如何通過預測來施加影響
攪拌吧,用力攪拌
沉睡的狗
要預測新的內容
眼睛看不到
預測說服
具有說服性的選擇
商業刺激和商業反饋
定量人性
量子人性—他是否可被影響?
通過上提模型預測影響力
銀行業對影響力的運用
預測錯誤之事
響應上提模型
上提模型的原理
上提模型如何發揮作用
說服效應
不同行業的影響
讓移動客戶不移動
結 語
價值100 萬美元的無聲革命
當組織采用預測分析時,其意義不啻發動了一支龐大軍隊,只不過這是由“螞蟻”組成的軍隊。這些“螞蟻”會走上組織運營的各大前線,與消費者、學生或病人等服務對象直接接觸。之后,這個“螞蟻軍團”會在預測結果的引導下改善數百個決策。這一過程可能并不是轟轟烈烈的,但用心觀察其綜合效果之后,會發現這些細小變化所產生的合力。每一個被改善的決策本身可能都顯得無足輕重,但成千上萬的決策合起來就大為不同。2005 年,某位客戶讓我想辦法提高他網站的點擊量,為此我把自己埋在了相關數據中,希望能找出辦法幫助這位客戶。這位客戶希望其網頁上的廣告能獲得更多的點擊量。這關乎收入,廣告的點擊量越多,這位客戶的收入就越高。這家網站在創辦幾年后已擁有數千萬用戶,用戶數據大概有5000 萬條,這就是用來做預測的寶貴的原始材料庫,而預測的對象竟然是:點擊!
廣告是媒體不可分割的部分,無論是紙媒、電視還是網絡媒體都離不開廣告。本杰明•富蘭克林曾說,人生中不可避免的兩樣東西是死亡和稅。如果他現在還活著,一定會加上第三樣東西:廣告。互聯網巨頭Google 承認,廣告是其較大的收入來源。Facebook也是如此。
但對于我要研究的這家網站來說,廣告的功能略有不同,只要能預測用戶的點擊率,其潛在收益就會更大。這家網站提供搜索高校獎學金的服務,在美國所有準備上大學的高中生中,大約有1/3 都是這家網站的用戶。這雖是不顯眼的細分市場,但對于許多大學和軍校的招生工作人員來說,卻是不容錯過的網站。在該網站上,有一則大學招生廣告很霸氣,它自稱是“美國創新型教育的領導者”,上面還附加了鏈接讓用戶點擊。不難想象,一些提供學生貸款的機構也選擇在這家網站上投放廣告,讓報考學生沒有財務上的后顧之憂。這些廣告商為每次點擊支付25 美元。對于網站而言,如果一次點擊就能換來這樣豐厚的收入,那真是太棒了。此外,網站上的廣告與網站主題緊密相關,而網站的用戶也有很強的目的性,因此平均下來每100 次點擊就能產生5 筆成功交易,這是令普通網站難以企及的業績!因此,擁有這家網站的獵頭公司從中獲利頗豐。任何微小的改善都意味著總收入的顯著提升。
但要想改善用戶的廣告選擇卻不是件容易的事。網頁切換時,用戶面前可能會出現很多廣告。最難的就是讓用戶點擊最適合他們的廣告鏈接。目前,網站根據各廣告的平均點擊率來排序,沒有考慮用戶的獨特需求。因此,點擊最多的廣告總是擺在最顯眼的位置。這樣的安排降低了廣告與單個用戶的匹配度,而且廣告一旦被推到顯眼的位置,就很難被替換下來,因為大量用戶總是會不經意地點擊最顯眼處的鏈接。某些大學對每次點擊都愿意支付高價,而且因為位置顯眼,其廣告鏈接的點擊率也很高。因此,似乎沒有理由用冷門的廣告去替換主流廣告,因為這樣做很可能會失去唾手可得的收入。
價值100 萬美元的無聲革命
當組織采用預測分析時,其意義不啻發動了一支龐大軍隊,只不過這是由“螞蟻”組成的軍隊。這些“螞蟻”會走上組織運營的各大前線,與消費者、學生或病人等服務對象直接接觸。之后,這個“螞蟻軍團”會在預測結果的引導下改善數百個決策。這一過程可能并不是轟轟烈烈的,但用心觀察其綜合效果之后,會發現這些細小變化所產生的合力。每一個被改善的決策本身可能都顯得無足輕重,但成千上萬的決策合起來就大為不同。2005 年,某位客戶讓我想辦法提高他網站的點擊量,為此我把自己埋在了相關數據中,希望能找出辦法幫助這位客戶。這位客戶希望其網頁上的廣告能獲得更多的點擊量。這關乎收入,廣告的點擊量越多,這位客戶的收入就越高。這家網站在創辦幾年后已擁有數千萬用戶,用戶數據大概有5000 萬條,這就是用來做預測的寶貴的原始材料庫,而預測的對象竟然是:點擊!
廣告是媒體不可分割的部分,無論是紙媒、電視還是網絡媒體都離不開廣告。本杰明•富蘭克林曾說,人生中不可避免的兩樣東西是死亡和稅。如果他現在還活著,一定會加上第三樣東西:廣告。互聯網巨頭Google 承認,廣告是其較大的收入來源。Facebook也是如此 。
但對于我要研究的這家網站來說,廣告的功能略有不同,只要能預測用戶的點擊率,其潛在收益就會更大。這家網站提供搜索高校獎學金的服務,在美國所有準備上大學的高中生中,大約有1/3 都是這家網站的用戶。這雖是不顯眼的細分市場,但對于許多大學和軍校的招生工作人員來說,卻是不容錯過的網站。在該網站上,有一則大學招生廣告很霸氣,它自稱是“美國創新型教育的領導者”,上面還附加了鏈接讓用戶點擊。不難想象,一些提供學生貸款的機構也選擇在這家網站上投放廣告,讓報考學生沒有財務上的后顧之憂。這些廣告商為每次點擊支付25 美元。對于網站而言,如果一次點擊就能換來這樣豐厚的收入,那真是太棒了。此外,網站上的廣告與網站主題緊密相關,而網站的用戶也有很強的目的性,因此平均下來每100 次點擊就能產生5 筆成功交易,這是令普通網站難以企及的業績!因此,擁有這家網站的獵頭公司從中獲利頗豐。任何微小的改善都意味著總收入的顯著提升。
但要想改善用戶的廣告選擇卻不是件容易的事。網頁切換時,用戶面前可能會出現很多廣告。最難的就是讓用戶點擊最適合他們的廣告鏈接。目前,網站根據各廣告的平均點擊率來排序,沒有考慮用戶的獨特需求。因此,點擊最多的廣告總是擺在最顯眼的位置。這樣的安排降低了廣告與單個用戶的匹配度,而且廣告一旦被推到顯眼的位置,就很難被替換下來,因為大量用戶總是會不經意地點擊最顯眼處的鏈接。某些大學對每次點擊都愿意支付高價,而且因為位置顯眼,其廣告鏈接的點擊率也很高。因此,似乎沒有理由用冷門的廣告去替換主流廣告,因為這樣做很可能會失去唾手可得的收入。
未來,大數據會變得越來越重要,其核心應用預測也會成為互聯網行業以及產業變革的重要力量,我們很有必要對數據預測及其分析方法進行且深入的了解。在這一點上,《大數據預測》是本很好的讀物,適合大數據所有相關行業的人閱讀。
——周鴻祎 360公司創始人、董事長兼CEO,奇酷CEO和知名天使投資人
我對不確定性懷有敬畏之心,但科學技術的發展尤其是大數據時代的來臨以及數據加工技術的進步,使人類行為可預測成為可能。我想,20年后,我們是不是會利用數據也就是預測的方法,去框定一個人的行為,或者說,我們的世界會因為預測技術改變到什么程度?讀完這本《大數據預測》,基本就能找到答案了。
——羅振宇 得到App創始人 未來,大數據會變得越來越重要,其核心應用預測也會成為互聯網行業以及產業變革的重要力量,我們很有必要對數據預測及其分析方法進行且深入的了解。在這一點上,《大數據預測》是本很好的讀物,適合大數據所有相關行業的人閱讀。
——周鴻祎 360公司創始人、董事長兼CEO,奇酷CEO和知名天使投資人
我對不確定性懷有敬畏之心,但科學技術的發展尤其是大數據時代的來臨以及數據加工技術的進步,使人類行為可預測成為可能。我想,20年后,我們是不是會利用數據也就是預測的方法,去框定一個人的行為,或者說,我們的世界會因為預測技術改變到什么程度?讀完這本《大數據預測》,基本就能找到答案了。
——羅振宇 得到App創始人
關于大數據的《魔鬼經濟學》 。
——斯坦•克雷辛格 Advertising.com創始執行人
本書是21世紀生活的使用說明手冊。利用大數據進行預測幾乎成為所有領域的關機鍵,不管是科技、商業、財經、運動,還是政治。而埃里克•西格爾正是我們理想的向導。
——斯蒂芬•貝克 《數字迷宮與終極風險》作者
本書有趣、有益、細膩入微,西格爾進行了深入探究,并讓科學變得激動人心。
——雷伊德•加尼 奧巴馬2012年美國大選團隊首席數據科學家
商業、政界以及醫療衛生領域的《點球成金》。
——吉姆•斯特恩 eMetrics Summit創始人,Digital Analytics Association主席
包裝精美,內容豐富,值得購買。
正版圖書 ,包裝不錯 , 整體感覺不錯 ,
大數據大數據
好書收藏待看
今后發展趨勢
院長推薦的書,專業