日韩偷拍一区二区,国产香蕉久久精品综合网,亚洲激情五月婷婷,欧美日韩国产不卡

在線客服
大數據Spark企業級實戰圖書
人氣:23

大數據Spark企業級實戰

目前市面上*全*實戰的Spark圣經級圖書!當今大數據時代**學習價值的技術寶典!Spark亞太研究院首席專家、Hadoop源碼級專家力作!恭喜本書輸出繁體版!
  • 所屬分類:圖書 >計算機/網絡>企業軟件開發與實施  
  • 作者:[Spark亞太研究院] [王家林] 編著
  • 產品參數:
  • 叢書名:決勝大數據時代Spark全系列書籍
  • 國際刊號:9787121247446
  • 出版社:電子工業出版社
  • 出版時間:2015-01
  • 印刷時間:2015-01-01
  • 版次:1
  • 開本:16開
  • 頁數:--
  • 紙張:膠版紙
  • 包裝:平裝
  • 套裝:

內容簡介

Spark是當今大數據領域最活躍、最熱門、較高效的大數據通用計算平臺,是Apache軟件基金會下所有開源項目中三大開源項目之一。

在"One Stack to rule them all"理念的指引下,Spark基于RDD成功地構建起了大數據處理的一體化解決方案,將MapReduce、Streaming、SQL、Machine Learning、Graph Processing等大數據計算模型統一到一個技術堆棧中,開發者使用一致的API操作Spark中的所有功能;更為重要的是Spark的Spark SQL、MLLib、GraphX、Spark Streaming等四大子框架之間可以在內存中的無縫集成并可以互相操作彼此的數據,這不僅打造了Spark在當今大數據計算領域其他任何計算框架都無可匹敵的優勢,更使得Spark正在加速成為大數據處理中心的和的計算平臺。

大數據Spark企業級實戰》詳細解析了企業級Spark開發所需的幾乎所有技術內容,涵蓋Spark的架構設計、Spark的集群搭建、Spark內核的解析、Spark SQL、MLLib、GraphX、Spark Streaming、Tachyon、SparkR、Spark多語言編程、Spark常見問題及調優等,并且結合Spark源碼細致的解析了Spark內核和四大子框架,在附錄中提供了的Spark的開發語言Scala快速入門實戰內容,學習完此書即可勝任絕大多數的企業級Spark開發需要。

大數據Spark企業級實戰》從零起步,從企業處理大數據業務場景的角度出發,基于實戰代碼來組織內容,對于一名大數據愛好者來說,《大數據Spark企業級實戰》內容可以幫助您一站式地完成從零起步到進行Spark企業級開發所需要的全部核心內容和實戰需要。

編輯推薦

推薦購買: Java虛擬機精講

Boost程序庫開發指南——深入C++"準"標準庫(第3版)

讓用戶體驗融入企業基因

Spring Batch 批處理框架

Cocos2d-x 3.X游戲開發入門精解(含DVD光盤1張

游戲自動化測試實踐

Life is short, you need Spark!

Spark是當今大數據領域活躍熱門的高效的大數據通用計算平臺。基于RDD,Spark成功地構建起了一體化、多元化的大數據處理體系。

雅虎、Conviva、、網易、大眾點評、優酷土豆、騰訊、華為等公司均在生產環境中部署了大規模的Spark。

本書從企業處理大數據業務場景的角度出發,基于實戰代碼來組織內容,從零起步,不需任何基礎,無痛地掌握Spark大數據處理實戰技術,源碼解析:

Spark集群的動手構建

Spark架構

Spark內核的深入解析

Spark四大子框架的細致剖析和實戰

Tachyon文件系統揭秘

Spark多語言編程

SparkP

Spark性能調優和實踐

一站式實現Spark企業級開發實戰!

作者簡介

Spark亞太研究院首席專家,中國移動互聯網和云計算大數據集大成者。在Spark、Hadoop、Android等方面有豐富的源碼、實務和性能優化經驗。徹底研究了Spark從0.5.0到0.9.1共13個版本的Spark源碼,并已完成2014年5月31日的Spark1.0源碼研究。

Hadoop源碼級專家,曾負責某知名公司的類Hadoop框架開發工作,專注于Hadoop一站式解決方案的提供,同時也是云計算分布式大數據處理的最早實踐者之一。

Android架構師、高級工程師、咨詢顧問、培訓專家。

通曉Spark、Hadoop、Android、HTML5,迷戀英語播音和健美。

目錄

第1章 Spark編程模型 1

1.1 Spark:一體化、多元化的高速

大數據通用計算平臺和庫 1

1.1.1 為什么需要使用Spark 5

1.1.2 Spark技術生態系統簡介 9

1.2 Spark大數據處理框架 20

1.2.1 Spark速度為何如此之快 20

1.2.2 RDD:分布式函數式編程 24

1.3 Spark子框架解析 28

1.3.1 圖計算框架Spark GraphX 28

1.3.2 實時流處理框架(Spark Streaming) 41

1.3.3 交互式SQL處理框架Spark SQL 46

1.3.4 機器學習框架(Spark MLlib) 49

第2章 構建Spark分布式集群 55

2.1 搭建Hadoop單機版本和偽分布式開發環境 55

2.1.1 開發Hadoop需要的基本軟件 56

2.1.2 安裝每個軟件 58

2.1.3 配置Hadoop單機模式并運行Wordcount示例 76

2.1.3 配置Hadoop偽分布模式并運行Wordcount示例 84

2. 2 搭建 Hadoop分布式集群的 92

2.2.1 在VMWare 中準備第二、第三臺運行Ubuntu系統的機器 92

2.2.2 按照配置偽分布式模式的方式配置新創建運行Ubuntu系統的機器 93

2.2.3 配置Hadoop分布式集群環境 94

2.2.4 測試Hadoop分布式集群環境 105

2.3 Spark集群的動手搭建 108

2.3.1 Spark集群需要的軟件 108

2.3.2 安裝每個軟件 110

2.3.3 啟動并查看集群的狀況 116

2.4 構建Hadoop單機版本和偽分布式環境 120

2.4.1 通過Spark的shell測試Spark的工作 121

2.4.2 使用Spark的cache機制觀察一下效率的提升 125

第3章 Spark開發環境及其測試 129

3.1 搭建和設置IDEA開發環境 129

3.1.1 構建Spark的IDE開發環境 129

3.1.2 配置Spark的IDE開發環境 132

3.2 測試IDEA環境 146

3.3 實戰:在IDEA中開發代碼,并運行在Spark集群中 148

第4章 Spark RDD與編程API實戰 159

4.1 深度解析Spark RDD 159

4.2 Transformation Operations動手實戰 165

4.3 Action Operations動手實戰 175

4.4 Spark API綜合實戰 179

第5章 Spark運行模式深入解析 191

5.1 Spark運行模式概述 192

5.1.1 Spark的運行模式列表 196

5.1.2 Spark的基本工作流程 197

5.2 Standalone模式 201

5.2.1 部署及程序運行 202

5.2.2 內部實現原理 206

5.3 Yarn-Cluster模式 234

5.3.1 部署及程序運行 235

5.3.2 內部實現原理 237

5.4 Yarn-Client模式 243

5.4.1 部署及運行程序 243

5.4.2 內部實現原理 244

第6章 Spark內核解析 247

6.1 Spark內核初探 247

6.1.1 Spark內核核心術語解析 247

6.1.2 Spark集群概覽 250

6.1.3 Spark核心組件 251

6.1.4 Spark任務調度系統初見 252

6.2 Spark內核核心源碼解讀 256

6.2.1 SparkContext核心源碼解析初體驗 256

6.2.2 TaskSceduler啟動源碼解析初體驗 260

6.2.3 DAGScheduler源碼解讀初體驗 261

6.2.4 Spark的Web監控頁面 262

6.3 以RDD的count操作為例觸發Job全生命周期源碼研究 263

6.4 Akka驅動下的Driver、Master、Worker 276

6.4.1 Driver中的AppClient源碼解析 276

6.4.2 AppClient注冊Master 279

6.4.3 Worker中Executor啟動過程源代碼解析 282

第7章 GraphX大規模圖計算與圖挖掘實戰 287

7.1 Spark GraphX概覽 288

7.2 Spark GraphX設計實現的核心原理 291

7.3 Table operator和Graph Operator 295

7.4 Vertices、edges、triplets 296

7.5 以最原始的方式構建graph 299

7.6 動手編寫及時個Graph代碼實例并進行Vertices、edges、triplets操作 299

7.7 在Spark集群上使用文件中的數據加載成為graph并進行操作 310

在線預覽

誕生于伯克利大學AMPLab的Spark是當今大數據領域最活躍、最熱門、較高效的大數據通用計算平臺。基于RDD,Spark成功地構建起了一體化、多元化的大數據處理體系。在任何規模的數據計算中,Spark在性能和擴展性上都更具優勢。攜帶先天學術基因優勢的Spark在整個發展過程中都深深地打上了學術研究的烙印,在"One Stack to rule them all"思想的引領下,Spark成功地使用Spark SQL、Spark Streaming、MLlib、GraphX近乎地解決了大數據中的Batch Processing、Streaming Processing、Ad-hoc Query等三大核心問題。在"Full Stack"理想的指引下,Spark中的Spark SQL、Spark Streaming、MLLib、GraphX四大子框架和庫之間可以無縫地共享數據和操作,這不僅打造了Spark在當今大數據計算領域其他計算框架都無可匹敵的優勢,而且使得Spark正在加速成為大數據處理中心計算平臺。

為什么寫作本書

Spark + Hadoop = A Winning Combination!

Hadoop和Spark聯合構成了當今的大數據世界,而這個世界正在悄悄發生變化,這種變化是Hadoop負責數據存儲和資源管理,Spark負責一體化、多元化的不同規模的數據計算,而計算正是大數據的精髓之所在!

在Spark官方公布的世界上明確在實際生產環境中使用Spark的公司可見https://cwiki. apache.org/confluence/display/SPARK/Powered+By+Spark。在實際的生產環境中,世界上已經出現很多一千個以上節點的Spark集群,以eBay為例,eBay的Spark集群節點已經超過2000個,Yahoo!等公司也在大規模地使用Spark,國內的淘寶、騰訊、百度、網易、、華為、大眾點評、優酷土豆等也在生產環境下深度使用Spark。2014 Spark Summit上的信息顯示,Spark已經獲得世界20家頂級公司的支持,這些公司中包括Intel、IBM等,同時更重要的是,較大的4個Hadoop發行商都提供了對Spark非常強有力的支持。

不得不提的是, DataBricks和AWS聯合所做的Sort Benchmark測試表明,Spark在只用Hadoop 1/10的計算資源且基于磁盤計算的情況下卻只用了1/3的運算時間,徹底顛覆了Hadoop保持的排序記錄,成為開源軟件領域在TB和PB數量級別排序最快的計算引擎。這表明在任意大小的數據規模下,Spark在性能和擴展性上都更具優勢。

與Spark火爆程度形成鮮明對比的是Spark人才的嚴重稀缺,這一情況在中國尤其嚴重,這種人才的稀缺一方面是由于Spark技術在2013、2014年才在國內流行,另一方面是由于缺乏Spark相關的中文資料和系統化的培訓。為此,Spark亞太研究院和51CTO聯合推出了"Spark亞太研究院決勝大數據時代100期公益大講堂",共同推動Spark技術的普及。具體視頻信息請參考edu.51cto.com/course/course_id-1659.html。

與此同時,為了更好地滿足廣大大數據愛好者系統學習Spark的迫切需求,我們基于近期的Spark 1.1版本編寫了《大數據Spark企業級實戰》一書,本著從企業級實際開發需要的Spark技能的角度出發,《大數據Spark企業級實戰》一書覆蓋了Spark集群的動手構建、Spark架構、內核的深入解析、Spark四大子框架的細致剖析和實戰、Tachyon文件系統揭秘、Spark多語言編程、SparkR、Spark性能調優和實踐、Spark核心源碼解析等內容。考慮到Spark框架和開發語言使用Scala,而很多朋友可能對Scala不是太熟悉,所以在本書的附錄中加入了動手實戰Scala三部曲來幫助沒有使用過Scala語言的學習者快速掌握Scala編程。對于一名大數據愛好者來說,本書內容可以幫助他們一站式地完成從零起步到進行Spark企業級開發所需要的全部核心內容和實戰方法。

關于本書作者

本書作者王家林是Spark亞太研究院首席專家,中國移動互聯網和云計算大數據技術領域的集大成者。在Spark、Hadoop、Android等方面有豐富的源碼、實務和性能優化經驗,徹底研究了Spark從0.5到1.1共18個版本的Spark源碼。

作者是Hadoop源碼級專家,曾負責某知名公司的類Hadoop框架開發工作,專注于提供Hadoop一站式解決方案,同時也是云計算分布式大數據處理的最早實踐者之一。

作者是Android架構師、高級工程師、咨詢顧問、培訓專家,為超過50家公司提供了基于Linux和Android的軟/硬整合解決方案。

本書主要內容

本書共15章,每章的主要內容如下。

第1章回答了Spark為何是大數據處理平臺的必然選擇?Spark速度如此之快的原因是什么?Spark的理論基石是什么?Spark具體是如何僅僅使用一個技術堆棧解決多元化的大數據處理需求的?

第2章回答了如何從零起步構建Hadoop集群?如何在Hadoop集群的基礎上構建Spark集群?如何測試Spark集群?

第3章回答了如何在IDEA集成開發環境中開發并運行Spark程序?如何在IDA中開發Spark代碼并進行測試?

第4章在細致解析RDD的基礎上會動手實戰RDD中的Transformation類型的RDD、Action類型的RDD,并伴有Spark API的綜合實戰案例。

第5章詳細分析了Spark Standalone模式、Spark Yarn-Cluster模式、Spark-Client模式的設計和實現。

第6章首先介紹Spark內核,接著分析Spark內核及源碼,細致解析Spark作業的全生命周期,分享Spark性能優化的內容。

第7章通過大約30個動手實踐的案例循序漸進地展示Spark GraphX框架方方面面的功能和使用方法,并對Spark GraphX的源碼進行解析。

第8章基于Spark SQL動手編程實踐章節,從零起步,細致、深入地介紹了Spark SQL方方面面的內容。

第9章從快速入門機器學習開始,詳細解析MLlib框架,通過對線性回歸、聚類、協同過濾的算法解析、源碼解析和案例實戰,循序漸進地揭秘MLlib,通過對MLlib中Basic Statics、樸素貝葉斯算法、決策樹的解析和實戰,進一步提升掌握Spark機器學習的技能。

第10章細致解析了Tachyon這個分布式內存文件系統的架構設計、具體實現、部署以及Spark對Tachyon的使用等內容。

第11章循序漸進地介紹Spark Streaming的原理、源碼和實戰案例等內容。

第12章介紹了Spark多語言編程的特點,并通過代碼實例循序漸進地介紹Spark多語言編程,通過一個綜合實例來實踐Spark多語言編程。

第13章從R語言的基礎介紹和動手實戰入手,介紹SparkR的使用和代碼實戰,助您快速上手R語言和Spark兩大大數據處理的利器。

第14章循序漸進地介紹了Spark常見的問題及其調優方式。首先介紹Spark性能優化的14大問題及其解決方法,然后從內存優化、RDD分區、Spark對象和操作的性能調優等角度解決常見的性能調優問題,講解Spark實踐方案。

第15章聚焦于Spark源碼中的BlockManager、Cache和Checkpoint等核心源碼解析,BlockManager、Cache和Checkpoint是每個Spark學習者都必須掌握的核心內容。本章循序漸進地解析了這三部分的源碼,包括通過源碼說明其用途、實現機制、內部細節和實際Spark生產環境下的實踐等。通過本章即可輕松駕馭BlockManager、Cache和Checkpoint,對Spark精髓的領悟也必將更上一層樓!

附錄部分主要是從Spark的角度來講解Scala,以動手實戰為核心,從零開始,循序漸進地講解Scala函數式編程和面向對象編程。

如何閱讀本書

這是一本內容詳實的大數據Spark企業級實戰圖書,按照以下建議閱讀可能會取得更好的效果:

如果你以前沒有接觸過Scala,建議先從附錄中的"動手實戰Scala三部曲"開始閱讀,邊閱讀邊編寫代碼,快速掌握Scala。

在閱讀完第1章的基礎上,強烈建議按照書中第2章和第3章的內容搭建起Spark的集群和IDE開發環境,后續主要內容都要在第2章和第3章構建的環境基礎上進行講解。

其他內容按照章節循序漸進地學習,建議多動手實踐。

強烈建議對于每一個Spark中知識點的學習應多閱讀源碼。

最終所有的內容都要回歸到框架源碼以及對源碼的閱讀和修改上,源碼是一切問題的來源和答案,恭祝各位早日成為Spark源碼級高手。

致謝

本書得以順利出版是團隊協作的結晶。在此特別感謝博文視點郭總的大力支持,編輯孫學瑛的認真和專業以及其他相關人員的支持。同時也感謝Spark亞太研究院各位同事的大力支持!尤其感謝佳佳在本書出版工作中的全力配合!

王家林

2014年12月

網友評論(不代表本站觀點)

來自無昵稱**的評論:

書挺好,可以很好入門

2015-04-14 10:41:36
來自無昵稱**的評論:

很好學習中

2015-04-20 17:28:04
來自無昵稱**的評論:

OK

2015-04-22 15:44:51
來自bhr123**的評論:

可以

2015-04-23 13:34:36
來自金羲**的評論:

挺好的挺好的挺好的挺好的

2015-04-23 18:46:53
來自無昵稱**的評論:

不錯,很全很詳細。

2015-04-26 12:47:02
來自無昵稱**的評論:

退了。

2015-04-30 14:03:34
來自無昵稱**的評論:

怎么說呢,還可以啦,只是價格明顯高了

2015-05-02 14:54:59
來自tianjic**的評論:

不錯,挺好的。就是因為部分書缺貨,等了幾天。

2015-05-05 12:55:45
來自無昵稱**的評論:

內容一般,排版太次

2015-05-16 17:03:35
來自無昵稱**的評論:

不錯

2015-06-15 16:15:48
來自無昵稱**的評論:

挺實用的!

2015-09-05 07:01:54
來自無昵稱**的評論:

很不錯

2015-09-06 08:50:51
來自晴天小**的評論:

還行

2015-10-21 18:44:14
來自microw**的評論:

spark好書,學習一下。

2015-11-22 16:03:27
來自無昵稱**的評論:

一本理論與實踐并重的好書,就是版本有點低。

2016-02-25 20:48:29
來自3l3t3t**的評論:

書還不錯,閱讀起來還是比較有意思的,書的包裝也還可以,到手沒壞,比較喜歡買自營的書,發票方便,希望能出更多好的書,為教育事業做貢獻!!!

2016-03-16 00:21:56
來自q***7(**的評論:

入門教程,但是作者好像涉嫌xxxx,自行搜索王xx

2017-01-06 10:03:25
來自無昵稱**的評論:

先說印刷,印刷質量太次,紙張質量太次,排版更尼瑪次,幾乎沒有頁面邊距,為了省紙張也都拼了,乍一看挺厚的一本書,以為內容多豐富,就是尼瑪從各種博客里面扒拉內容,而且截圖根本就沒有調整,一滿頁黑乎乎的命令行界面,就說SparkR章節吧, 80的內容是R語言基礎,20的內容是摘抄的 博主徽滬一郎的博客 如何安裝SparkR 針對SparkR的源碼理解 一點點都沒有 還什么spark亞太研究院,真水啊。。建議能不買就不買了 100多塊錢。還聽說他們的群里 給好評送書。

2015-02-06 14:30:32
來自sonx**的評論:

直接就扔保安了。以前當當快遞不是這樣的。起碼給個電話。那么貴的書,就一個塑料袋包著,仍在保安那下雨了就完了。

2015-02-03 09:06:01
來自●--韜-**的評論:

包裝完好,紙張上乘,印刷良好,排版粗糙,內容一般,作者有湊頁數之嫌。

2015-03-26 18:50:18
來自無昵稱**的評論:

書還未看,朋友推薦不錯。但是說實在的,當當選的快遞一般。晚到了一天了。。。。。

2015-03-25 18:03:10
來自xiaot10**的評論:

非常好的一本書,里面講了很多SPARK理論+實操,值得細細研讀

2015-02-04 20:55:07
來自yejv**的評論:

這本書目前是值得看的,內容寫的非常的好、值得大家好好的看幾遍

2015-02-02 19:58:11
來自妖精的**的評論:

講的非常好,不愧是spark界圣經級別的書,大神帶你飛!

2015-03-27 23:27:26
來自無昵稱**的評論:

看了書以后。干貨很少.基本都是復制源碼.適合初學者.書很厚。基本都是截圖

2015-03-12 11:14:10
來自無昵稱**的評論:

王家林老師的力作啊,大數據spark的布道者,贊一個

2015-03-07 21:46:25

免責聲明

更多出版社
主站蜘蛛池模板: 秦安县| 莎车县| 绥芬河市| 杨浦区| 洪湖市| 紫云| 房山区| 四子王旗| 宣城市| 嘉定区| 扶余县| 江门市| 嵩明县| 凌源市| 镇赉县| 法库县| 梅河口市| 高雄县| 孝感市| 洪雅县| 皮山县| 工布江达县| 武功县| 开平市| 汪清县| 定日县| 疏勒县| 十堰市| 永仁县| 四子王旗| 玉溪市| 四子王旗| 深州市| 敦化市| 尤溪县| 永靖县| 福泉市| 南陵县| 鄂州市| 长阳| 扶风县|