在集團內,數據人員面臨的現實情況是:集團數據存儲已經達到EB級別,部分單張表每天的數據記錄數高達幾千億條;在2016年"雙11購物狂歡節"的24小時中,支付金額達到了1207億元人民幣,支付峰值高達12萬筆/秒,下單峰值達17.5萬筆/秒,媒體直播大屏處理的總數據量高達百億級別且所有數據都需要做到實時、地對外披露……巨大的信息量給數據采集、存儲和計算都帶來了極大的挑戰。《大數據之路——大數據實踐》就是在此背景下完成的。本書中講到的大數據系統架構,就是為了滿足不斷變化的業務需求,同時實現系統的高度擴展性、靈活性以及數據展現的高性能而設計的。本書由數據技術及產品部組織并完成寫作,是分享對大數據的認知,與生態伙伴共創數據智能的重要基石。相信本書中的實踐和思考對同行會有很大的啟發和借鑒意義。
數據技術及產品部是所屬的數據業務部門,該部門最為熟知大阿里的整個大數據業務發展。該部門的幾位博學員工結合實踐完成本書。主要分析近幾年的數據挖掘、分析、應用的探索經歷。本書適合所有搞數據研究、數據分析的個人或企業學習參考。
目錄
第1章 總述1第1篇 數據技術篇第2章 日志采集82.1 瀏覽器的頁面日志采集8
2.1.1 頁面瀏覽日志采集流程9
2.1.2 頁面交互日志采集14
2.1.3 頁面日志的服務器端清洗和預處理15
2.2 無線客戶端的日志采集16
2.2.1 頁面事件17
2.2.2 控件點擊及其他事件18
2.2.3 特殊場景19
2.2.4 H5 & Native日志統一20
2.2.5 設備標識22
2.2.6 日志傳輸23
2.3 日志采集的挑戰24
2.3.1 典型場景24
2.3.2 大促保障26第3章 數據同步29
3.1 數據同步基礎29
3.1.1 直連同步30
3.1.2 數據文件同步30
3.1.3 數據庫日志解析同步31
3.2 阿里數據倉庫的同步方式35
3.2.1 批量數據同步35
3.2.2 實時數據同步37
3.3 數據同步遇到的問題與解決方案39
3.3.1 分庫分表的處理39
3.3.2 高效同步和批量同步41
3.3.3 增量與全量同步的合并42
3.3.4 同步性能的處理43
3.3.5 數據漂移的處理45第4章 離線數據開發48
4.1 數據開發平臺48
4.1.1 統一計算平臺49
4.1.2 統一開發平臺53
4.2 任務調度系統58
4.2.1 背景58
4.2.2 介紹59
4.2.3 特點及應用65第5章 實時技術68
5.1 簡介69
5.2 流式技術架構71
5.2.1 數據采集72
5.2.2 數據處理74
5.2.3 數據存儲78
5.2.4 數據服務80
5.3 流式數據模型80
5.3.1 數據分層80
5.3.2 多流關聯83
5.3.3 維表使用84
5.4 大促挑戰&保障86
5.4.1 大促特征86
5.4.2 大促保障88第6章 數據服務91
6.1 服務架構演進91
6.1.1 DWSOA92
6.1.2 OpenAPI93
6.1.3 SmartDQ94
6.1.4 統一的數據服務層96
6.2 技術架構97
6.2.1 SmartDQ97
6.2.2 iPush100
6.2.3 Lego101
6.2.4 uTiming102
6.3 實踐103
6.3.1 性能103
6.3.2 穩定性111第7章 數據挖掘116
7.1 數據挖掘概述116
7.2 數據挖掘算法平臺117
7.3 數據挖掘中臺體系119
7.3.1 挖掘數據中臺120
7.3.2 挖掘算法中臺122
7.4 數據挖掘案例123
7.4.1 用戶畫像123
7.4.2 互聯網反作弊125第2篇 數據模型篇第8章 大數據領域建模綜述1308.2 關系數據庫系統和數據倉庫131
8.3 從OLTP和OLAP系統的區別看模型方法論的選擇132
8.4 典型的數據倉庫建模方法論132
8.4.1 ER模型132
8.4.2 維度模型133
8.4.3 Data Vault模型134
8.4.4 Anchor模型135
8.5 阿里巴巴數據模型實踐綜述136第9章 阿里巴巴數據整合及管理體系138
9.1 概述138
9.1.1 定位及價值139
9.1.2 體系架構139
9.2 規范定義140
9.2.1 名詞術語141
9.2.2 指標體系141
9.3 模型設計148
9.3.1 指導理論148
9.3.2 模型層次148
9.3.3 基本原則150
9.4 模型實施152
9.4.1 業界常用的模型實施過程152
9.4.2 OneData實施過程154第10章 維度設計159
10.1 維度設計基礎159
10.1.1 維度的基本概念159
10.1.2 維度的基本設計方法160
10.1.3 維度的層次結構162
10.1.4 規范化和反規范化163
10.1.5 一致性維度和交叉探查165
10.2 維度設計高級主題166
10.2.1 維度整合166
10.2.2 水平拆分169
10.2.3 垂直拆分170
10.2.4 歷史歸檔171
10.3 維度變化172
10.3.1 緩慢變化維172
10.3.2 快照維表174
10.3.3 極限存儲175
10.3.4 微型維度178
10.4 特殊維度180
10.4.1 遞歸層次180
10.4.2 行為維度184
10.4.3 多值維度185
10.4.4 多值屬性187
10.4.5 雜項維度188第11章 事實表設計190
11.1 事實表基礎190
11.1.1 事實表特性190
11.1.2 事實表設計原則191
11.1.3 事實表設計方法193
11.2 事務事實表196
11.2.1 設計過程196
11.2.2 單事務事實表200
11.2.3 多事務事實表202
11.2.4 兩種事實表對比206
11.2.5 父子事實的處理方式208
11.2.6 事實的設計準則209
11.3 周期快照事實表210
11.3.1 特性211
11.3.2 實例212
11.3.3 注意事項217
11.4 累積快照事實表218
11.4.1 設計過程218
11.4.2 特點221
11.4.3 特殊處理223
11.4.4 物理實現225
11.5 三種事實表的比較227
11.6 無事實的事實表228
11.7 聚集型事實表228
11.7.1 聚集的基本原則229
11.7.2 聚集的基本步驟229
11.7.3 阿里公共匯總層230
11.7.4 聚集補充說明234第3篇 數據管理篇第12章 元數據236
12.1 元數據概述236
12.1.1 元數據定義236
12.1.2 元數據價值237
12.1.3 統一元數據體系建設238
12.2 元數據應用239
12.2.1 Data Profile239
12.2.2 元數據門戶241
12.2.3 應用鏈路分析241
12.2.4 數據建模242
12.2.5 驅動ETL開發243第13章 計算管理245
13.1 系統優化245
13.1.1 HBO246
13.1.2 CBO249
13.2 任務優化256
13.2.1 Map傾斜257
13.2.2 Join傾斜261
13.2.3 Reduce傾斜269
第14章 存儲和成本管理275
14.1 數據壓縮275
14.2 數據重分布276
14.3 存儲治理項優化277
14.4 生命周期管理278
14.4.1 生命周期管理策略278
14.4.2 通用的生命周期管理矩陣280
14.5 數據成本計量283
14.6 數據使用計費284第15章 數據質量285
15.1 數據質量保障原則285
15.2 數據質量方法概述287
15.2.1 消費場景知曉289
15.2.2 數據加工過程卡點校驗292
15.2.3 風險點監控295
15.2.4 質量衡量299第4篇 數據應用篇第16章 數據應用304
16.1 生意參謀305
16.1.1 背景概述305
16.1.2 功能架構與技術能力307
16.1.3 商家應用實踐310
16.2 對內數據產品平臺313
16.2.1 定位313
16.2.2 產品建設歷程314
16.2.3 整體架構介紹317
附錄A 本書插圖索引320