《Hadoop安全 大數據平臺隱私保護》闡述了Hadoop從早期開放的消費互聯網時代到現在作為敏感數據可信平臺的演變歷程,介紹了包括身份驗證、加密、密鑰管理和商業實踐在內的諸多主題,并在實際環境下加以討論。第1章是介紹性內容,隨后分為四大部分:部分是安全架構,第二部分是驗證、授權和安全審計,第三部分是數據安全,第四部分是歸納總結。后介紹了幾個使用案例,融合了書中諸多概念。 《Hadoop安全 大數據平臺隱私保護》適合對Hadoop感興趣的讀者,有大數據平臺保護需求的讀者。
隨著使用Hadoop存儲并處理大量數據的企業不斷增多,Hadoop安全性日益凸顯,尤其是在金融和醫療等涉及敏感信息的行業。本書兩位作者均來自Hadoop安全防范一線,書中詳細論述了身份驗證、加密、密鑰管理等諸多重要主題,并給出了具體處理建議和案例分析,讀者可以從中了解搭建和使用Hadoop的架構師是如何安全管理大數據的。 - 了解分布式系統,尤其是Hadoop所面臨的安全挑戰 - 學習如何盡可能確保Hadoop集群硬件的安全性 - Kerberos網絡認證協議概覽 - 身份驗證、授權和審計原則在Hadoop中的應用 - 靜態數據和動態數據的加密 - 客戶端訪問和數據提取過程的安全防護措施
Ben Spivey Cloudera解決方案架構師,曾在多家世界500強企業工作,涉及金融服務、零售、醫療等多個行業。在于客戶的Hadoop集群進行規劃、安裝、配置以及安全保護方面有豐富經驗。 Joey Echeverria Rocana軟件工程師,負責在Apache Hadoop平臺下構建一代IT運行分析系統。Hadoop生態系統數據API Kite SDK的貢獻者,并為Flume、Hadoop、HBase等多個Apache項目做過了貢獻。
序 xi
前言 xii
第1 章引言 1
1.1安全概覽 1
1.1.1機密性 2
1.1.2完整性 2
1.1.3可用性 2
1.1.4驗證、授權和審計 3
1.2Hadoop 安全:簡史 5
1.3Hadoop 組件和生態系統 5
1.3.1Apache HDFS 6
1.3.2Apache YARN 7
1.3.3Apache MapReduce 8
1.3.4Apache Hive 9
1.3.5Cloudera Impala 9
1.3.6Apache Sentry 10
1.3.7ApacheHBase 11
1.3.8Apache Accumulo 11
1.3.9Apache Solr.13
1.3.10Apache Oozie 13
1.3.11Apache ZooKeeper 13
1.3.12Apache Flume .13
1.3.13Apache Sqoop .14
vi | 目錄
1.3.14ClouderaHue 14
1.4小結 .14
及時部分安全架構
第2 章保護分布式系統 .16
2.1威脅種類 17
2.1.1非授權訪問/偽裝 17
2.1.2內在威脅 .17
2.1.3拒絕服務 .18
2.1.4數據威脅 .18
2.2威脅和風險評估 18
2.2.1用戶評估 .19
2.2.2環境評估 .19
2.3漏洞 .19
2.4深度防御 20
2.5小結 .21
第3 章系統架構 22
3.1運行環境 22
3.2網絡安全 23
3.2.1網絡劃分 .23
3.2.2網絡防火墻 24
3.2.3入侵檢測和防御 .25
3.3Hadoop 角色和隔離策略 27
3.3.1主節點 28
3.3.2工作節點 .29
3.3.3管理節點 .29
3.3.4邊界節點 .30
3.4操作系統安全 31
3.4.1遠程訪問控制 31
3.4.2主機防火墻 31
3.4.3SELinux 33
3.5小結 .34
第4 章Kerberos 35
4.1為什么是Kerberos .35
4.2Kerberos 概覽 36
4.3Kerberos 工作流:一個簡單示例 .37
目錄 | vii
4.4Kerberos 信任 38
4.5MIT Kerberos .39
4.5.1服務端配置 41
4.5.2客戶端配置 44
4.6小結 .46
第二部分驗證、授權和審計
第5 章身份和驗證 .48
5.1身份 .48
5.1.1將Kerberos 主體映射為用戶名 .49
5.1.2Hadoop 用戶到組的映射 50
5.1.3Hadoop 用戶配置 54
5.2身份驗證 54
5.2.1Kerberos 55
5.2.2用戶名和密碼驗證 56
5.2.3令牌 56
5.2.4用戶模擬 .59
5.2.5配置 60
5.3小結 .70
第6 章授權 71
6.1HDFS 授權 71
HDFS 擴展ACL .72
6.2服務級授權 .74
6.3MapReduce 和YARN 的授權 .85
6.3.1MapReduce(MR1) 86
6.3.2YARN(MR2) 87
6.6HBase 和Accumulo 的授權 95
6.6.1系統、命名空間和表級授權 95
6.6.2列級別和單元級別授權 .99
6.7小結 .99
第7 章Apache Sentry(孵化中) 100
7.1Sentry 概念 100
7.2Sentry 服務 102
7.3Hive 授權 105
7.4Impala 授權 110
7.5Solr 授權 112
viii | 目錄
7.6Sentry 特權模型 113
7.6.1SQL 特權模型 114
7.6.2Solr 特權模型 .116
7.7Sentry 策略管理 118
7.7.1SQL 命令 118
7.7.2SQL 策略文件 121
7.7.3Solr 策略文件 .123
7.7.4策略文件的驗證和校驗 124
7.7.5從策略文件遷移 126
7.8小結 127
第8 章審計 .128
8.1HDFS 審計日志 .129
8.2MapReduce 審計日志 .130
8.3YARN 審計日志132
8.4Hive 審計日志 134
8.5ClouderaImpala 審計日志 134
8.6HBase 審計日志 135
8.7Accumulo 審計日志 137
8.8Sentry 審計日志 139
8.9日志聚合 140
8.10小結 141
第三部分數據安全
第9 章數據保護 .144
9.1加密算法 144
9.2靜態數據加密 .145
9.2.1加密和密鑰管理 146
9.2.2HDFS 靜態數據加密 .146
9.2.3MapReduce2 中間數據加密 151
9.2.4Impala 磁盤溢出加密 152
9.2.5全盤加密 152
9.2.6文件系統加密 154
9.2.7Hadoop 中重要數據的安全考慮 .155
9.3動態數據加密 .156
9.3.1傳輸層安全 .156
9.3.2Hadoop 動態數據加密 157
目錄 | ix
9.4數據銷毀和刪除 162
9.5小結 163
第10 章數據導入安全 .164
10.1導入數據的完整性 165
10.2數據導入的機密性 166
10.2.1Flume 加密 167
10.2.2Sqoop 加密 173
10.3導入工作流 178
10.4企業架構 .179
10.5小結 180
第11 章數據提取和客戶端訪問安全 181
11.1Hadoop 命令行接口 .182
11.2保護應用安全 183
11.3HBase 184
11.3.1HBase shell 184
11.3.2HBase REST 網關 186
11.3.3HBase Thrift 網關 189
11.4Accumulo 190
11.4.1Accumulo shell 190
11.4.2Accumulo 服務 192
11.5Oozie .192
11.6Sqoop .194
11.7SQL 訪問 195
11.7.1Impala .195
11.7.2Hive .200
11.8WebHDFS/HttpFS 208
11.9小結 209
第12 章Cloudera Hue .210
12.1Hue HTTPS 211
12.2Hue 身份驗證 212
12.2.1SPNEGO 后端 212
12.2.2SAML 后端 .213
12.2.3LDAP 后端 .215
12.3Hue 授權 .218
12.4Hue SSL 客戶端配置 219
12.5小結 219
x | 目錄
第四部分綜合應用
第13 章案例分析 .222
13.1案例分析:Hadoop 數據倉庫 222
13.1.1環境搭建 223
13.1.2用戶體驗 226
13.1.3小結 .229
13.2案例分析:交互式HBaseWeb 應用 .230
13.2.1設計與架構 .230
13.2.2安全需求 231
13.2.3集群配置 232
13.2.4實現中的注意事項 .236
13.2.5小結 .237
后記 .238
關于作者 .240
關于封面 .240
“Hadoop能夠讓你存儲更多數據,并使用多種高效工具對其進行挖掘。本書幫你了解如何安全無憂地體驗Hadoop這些強大性能。” ——Doug Cutting,Hadoop之父
“本書的兩位作者在將安全概念引入Hadoop平臺方面做出過突出貢獻,他們不但介紹了Hadoop從早期開放的消費互聯網時代到現在作為敏感數據可信平臺的演變過程,還對如何安全管理大數據給出了具體意見。” ——Mike Olson,Cloudera公司首-席戰略官、聯合創始人