《大數據分析 數據科學應用場景與實踐精髓》是一本討論大數據理論及應用實踐的專著,從討論理論界的前沿觀點開始,之后轉向討論這些理論在日常商業活動中的實踐應用。
《大數據分析 數據科學應用場景與實踐精髓》首先介紹了大數據分析的業務應用場景、分析建模過程和主要任務,以及模型商用的關鍵點;接著講述了數據收集、抽樣和預處理的實施要點;之后系統性地討論了各種模型技術及其應用,包括預測分析、描述分析、生存分析、社交網絡分析等。在完成了這些理論知識和模型技術方法鋪墊之后,就進入到實踐應用部分,包括把分析活動轉化為生產力的關鍵事項,以及各種應用實例。
《大數據分析 數據科學應用場景與實踐精髓》幫助讀者系統地梳理了各類模型方法的技術要點和應用要點,包括線性回歸、Logistic回歸、決策樹、聚類、關聯規則、序列規則、神經網絡、支持向量機、套袋算法、Boosting算法、森林算法、生存分析等;本書還介紹了大量的應用實例,如信用風險建模、欺詐檢測、營銷響應提升模型、客戶流失預測、自動推薦、網頁分析、社交媒體分析,以及業務流程分析等。因此,對于從事大數據分析相關工作的人士來說,本書是一本難得的實務指南;對于高等院校相關專業的師生來說,本書是一本非常好的課外閱讀材料,特別是書中關于如何把分析變成生產力的章節部分,相信一定能給他們很多的啟發和思考。
幾年前,大數據不過是一個口號。今天,在每一個企業里,大數據已經在事實上存在,但只有少數企業能走進這個新的信息世界,并獲得豐厚收益。分析科學,是一種深入洞察客戶思維、理解復雜的客戶行為動態,進而影響企業商業模式的方法手段。《大數據分析:數據科學應用場景與實踐精髓》是一本討論大數據理論及應用的專著,始于理論界的前沿觀點討論,然后轉向這些理論研究在日常商業活動中的實踐應用。
有人說,數據就是"新石油",是一種價值巨大的新資源,而且取之不盡、用之不竭。這樣評價數據的價值前景,一點也不為過。正如1級分析專家巴特·貝森斯(Bart Baesens)所說,數據是每個人都擁有的資源,石油則不是,這是兩者的極大差別。在很多商業應用領域,如風險管理、欺詐偵測、客戶關系管理、潛在客戶獲取等,大數據分析都提供了有價值的探索,很多企業獲得了巨大的收益。閱讀《大數據分析:數據科學應用場景與實踐精髓》一書,邁出從數據庫資源中提取有價值信息的第1步!
本書以實踐者的視角,向讀者展示如何利用大數據技術的全新發現和新理念,建立支撐商業活動的分析戰略。鑒于分析科學相關的基礎數學理論已經相當成熟,本書側重于案例研究和行動方案,而非聚焦算法模型的技術細節。對于那些希望獲知全新技術動向、嘗試拓展數據分析應用領域的分析專家來說,這種務實的聚焦應用的思路,能給他們更多的啟迪,真正地發揮數據資源的效用。
數據的增長速度如火箭飛天,數據分析的各種應用也同步快速增長,學習如何從大數據中獲取商業價值,已成為企業打造競爭力的常備條件。巴特?貝森斯(Bart Baesens)把自己多年的經驗都寫進了本書中,這是一本面向行動的參考書,旨在幫助企業利用全新的分析技術,維持和提升競爭力。
巴特·貝森斯(Bart Baesens)是比利時魯汶大學的副教授,英國南安普敦大學的講師,以及國際知名的數據分析知名顧問。他是網絡分析、客戶關系管理和欺詐偵測等領域杰出的研究實踐者。他在多種世界知名期刊(如《機器學習》(Machine Learning)和《管理科學》(Management Science)上發表了多篇論文,還是《信用風險管理精要》(牛津大學出版社,2008年出版)一書的作者。
目錄
1 第1章 大數據及其分析
1.1 大數據的業務應用場景
1.2 基本的專業術語
1.3 分析過程模型
1.4 分析建模活動中的任務及角色
1.5 分析技術
1.6 分析模型的要求
1.7 本章參考文獻
13 第2章 數據采集、抽樣和預處理
2.1 數據源的類型
2.2 數據抽樣
2.3 數據類型
2.4 數據可視化及探索性統計分析
2.5 缺失值的處理
2.6 異常值檢測及處理
2.7 數據標準化
2.8 粗分類(Categorization)處理
2.9 WOE值的計算
2.10 變量的選擇
2.11 細分
2.12 本章參考文獻
35 第3章 預測分析
3.1 定義目標變量
3.2 線性回歸
3.3 Logistic回歸
3.4 決策樹
3.5 神經網絡
3.6 支持向量機
3.7 集成算法
3.7.1 套袋算法(Bagging)
3.7.2 Boosting方法
3.7.3 隨機森林
3.8 多類分類技術
3.8.1 多類Logistic回歸
3.8.2 多類決策樹
3.8.3 多類神經網絡
3.8.4 多類支持向量機
3.9 預測模型的評估
3.9.1 數據集的分割
3.9.2 分類模型的性能評估
3.9.3 回歸模型的性能評估
3.10 本章參考文獻
89 第4章 描述性分析
4.1 關聯規則
4.1.1 基本概念及假設
4.1.2 支持度和置信度
4.1.3 關聯規則的挖掘
4.1.4 提升度的度量
4.1.5 關聯規則的后處理
4.1.6 關聯規則的擴展
4.1.7 關聯規則的應用
4.2 序列規則
4.3 細分技術
4.3.1 分層聚類
4.3.2 K-Means聚類
4.3.3 自組織映射圖(SOM)
4.3.4 聚類解決方案的應用及解釋
4.4 本章參考文獻
107 第5章 生存分析
5.1 生存分析的基本概念和函數
5.2 卡普蘭·梅爾分析
5.3 參數法生存分析
5.4 比例風險回歸模型
5.5 生存分析模型的擴展
5.6 生存分析模型的評估
5.7 本章參考文獻
123 第6章 社交網絡分析
6.1 社交網絡的定義
6.2 社交網絡的度量
6.3 社交網絡學習
6.4 關系近鄰分類器
6.5 概率關系近鄰分類器
6.6 關系邏輯回歸
6.7 共同模式推斷
6.8 自中心網絡(EGO NETS)
6.9 偶圖/二分圖
6.10 本章參考文獻
137 第7章 從分析到生產力
7.1 模型的后驗測試
7.1.1 分類模型的后驗測試
7.1.2 回歸模型的后驗測試
7.1.3 聚類模型的后驗測試
7.1.4 設計后驗測試方案
7.2 參照管理
7.3 數據質量
7.4 軟件工具
7.5 隱私保護
7.6 模型設計相關文檔
7.7 公司治理
7.8 本章參考文獻
167 第8章 實踐與案例
8.1 信用風險建模
8.2 欺詐檢測
8.3 凈響應提升建模
8.4 流失預測
8.4.1 流失預測模型
8.4.2 流失預測流程
8.5 推薦系統
8.5.1 協同過濾推薦
8.5.2 基于內容的推薦
8.5.3 基于人口統計信息的推薦
8.5.4 基于知識的推薦
8.5.5 組合推薦
8.5.6 推薦系統的評價
8.5.7 案例介紹
8.6 網頁分析
8.6.1 網頁數據收集
8.6.2 Web KPI指標
8.6.3 從Web KPI到行動洞察力
8.6.4 導航分析
8.6.5 搜索引擎營銷分析
8.6.6 A/B測試和多變量測試
8.7 社會化媒體分析
8.7.1 社交網站:B2B廣告工具
8.7.2 情感分析
8.7.3 網絡分析
8.8 業務流程分析
8.8.1 流程智能
8.8.2 流程挖掘和分析
8.8.3 形成閉環:全流程的整合數據分析
8.9 本章參考文獻
231 譯者后記
"僅僅通過持續開發和利用海量數據資源,谷歌、臉譜網、優步、Waze、Zillow之類的互聯網公司,就動搖了眾多傳統行業的業務運營模式。就打造競爭優勢而言,將精力和資源集中投入到收集和利用新數據,簡單且非常有必要。當今時代,受益于層出不窮的技術創新,我們能以更低的成本、更快的速度,收集、存儲和分析任何類型的數據。在這本書中,作者結合數據科學(或者說分析科學),提出了許多獨到的研究見解,給出了豐富的商業應用案例,對于那些希望利用相關技術,幫助企業獲得可持續戰略優勢的人士來說,本書非常值得一讀!"
——薩賓·艾爾瑞特(Sabine Everaet),可口可樂歐洲公司CIO(首席信息官)
"當今的互聯網技術應用經驗豐富型公司,如易趣網、亞馬遜和臉譜網等,接觸了數億用戶,產生了大量的數據,涵蓋交易活動及社交活動的方方面面。掌握從海量數據中獲取知識寶藏的技術,是這些公司贏得客戶、提升競爭力的關鍵。作者依托自身的業務經驗和專業知識,介紹了各種數據科學和分析技術的實踐應用,對于那些力圖把本公司數據資源變為經營決策的動力引擎的企業來說,本書是一本極佳的實踐操作指導手冊!"
——斯蒂夫·梅茲(Steve Metz),eBay公司高級總監,負責全球客戶體驗業務
把大數據變成大機會
"我們該從哪里起步?"當需要從戰略層面加強數據管理及應用時,越來越多的企業提出了這個問題。說到抓取、整合多個渠道的數據,用于業務經營活動,并量化其價值,似乎是一項不可完成的艱巨任務,《大數據分析:數據科學應用場景與實踐精髓》一書正是為此而寫。對于那些聚焦大數據分析的商業應用實踐的人士而言,本書堪稱量身打造。分析專家巴特?貝森斯(Bart Baesens)通過案例研究、企業中的現實應用,以及必要的利用理論和數學公式的方法步驟,深入淺出地答疑解惑。
大數據的應用領域正在不斷擴大。本書給出了把大數據分析技術用于客戶關系管理、社會化媒體、風險管理以及更多業務領域的方法。洞察過去的行為,有助于預測未來的發展趨勢,從而讓企業更有效地響應市場變化。事實證明,從刻畫和預測復雜的客戶行為模式開始,找出符合自身業務經營特點的分析方法,是企業增加價值、實現經營目標的基礎。
大數據是一種可快速利用的、成本低廉的資產。分析科學已經滲透到各行各業,滲透到每個企業的各個業務部門,如果不能善用自己的數據資產,企業將會在未來的競爭中走向沒落。新信息技術的發展趨勢,已經改變了企業識別新商業機會的規
大數據分析。分析
內容一般般
在書店翻了兩眼,覺得不錯就買了
正版書,很好!就是沒有按照我約定的時間送到,提前到了,沒有能夠刷卡!不過速度還是贊一個!
快遞及時。
還沒仔細看呢,看了再來評價
一般般
發貨快,正版,無污損。
不錯
價值不大,馬馬虎虎吧,湊合。
書很不錯,等著看了過后再評論
不錯
很好很快
很好很快
很好,值得學習,這本書很詳細
老師推薦的書,感覺很奇怪,這種書有啥好推薦的,插圖看起來格式都不統一,像是從其它地方截圖的~
質量不錯正版的
好書,字數字數
東西不錯,很滿意
為單位長征勝利80周年買的,不錯
看了一下,還是不太懂,比較專業
這個非常不錯啊
很好,值得學習,這本書很詳細
書很好!!
很好,喜歡!
還來的及讀