日韩偷拍一区二区,国产香蕉久久精品综合网,亚洲激情五月婷婷,欧美日韩国产不卡

在線客服
大數(shù)據(jù)分布式計算與案例圖書
人氣:40

大數(shù)據(jù)分布式計算與案例

序言大數(shù)據(jù)分布式計算課程是大數(shù)據(jù)方向應(yīng)用統(tǒng)計專業(yè)碩士學(xué)生的專業(yè)必修課,通過本課程的學(xué)習(xí)使學(xué)生能夠掌握目前大數(shù)據(jù)挖掘領(lǐng)域常用的并行計算方法,加深學(xué)生對統(tǒng)計并行計算的理解,培養(yǎng)學(xué)生使用在現(xiàn)代并行架構(gòu)下利...

內(nèi)容簡介

大數(shù)據(jù)分布式計算課程是大數(shù)據(jù)方向應(yīng)用統(tǒng)計專業(yè)碩士學(xué)生的專業(yè)必修課,通過本課程的學(xué)習(xí)使學(xué)生能夠掌握目前大數(shù)據(jù)挖掘領(lǐng)域常用的并行計算方法,加深學(xué)生對統(tǒng)計并行計算的理解,培養(yǎng)學(xué)生使用在現(xiàn)代并行架構(gòu)下利用統(tǒng)計方法深入挖掘大數(shù)據(jù)中的數(shù)據(jù)結(jié)構(gòu)并能解決一些實際問題的能力。

編輯推薦

導(dǎo)語_點評_推薦詞

作者簡介

李豐 中央財經(jīng)大學(xué)統(tǒng)計與數(shù)學(xué)學(xué)院碩士生導(dǎo)師,院長助理。瑞典斯德哥爾摩大學(xué)統(tǒng)計學(xué)系統(tǒng)計學(xué)博士。研究方向與興趣:大數(shù)據(jù)與復(fù)雜模型、貝葉斯推斷與統(tǒng)計計算、計量經(jīng)濟與預(yù)測方法、多元模型等。曾獲國際貝葉斯協(xié)會青年旅行獎勵、瑞典Knut and Alice Wallenberg 基金會獎勵。任中國統(tǒng)計教育學(xué)會高等教育分會副秘書長。金融工程與風(fēng)險管理國際研討會執(zhí)行秘書等。

目錄

目錄

第1章 統(tǒng)計分析與并行計算

1.1 并行計算與并行計算機

1.2 統(tǒng)計計算的并行原理||以矩陣乘法為例

1.3 基于R 的單機并行計算

1.4 基于Python 的單機并行計算

1.5 大數(shù)據(jù)背景下的數(shù)據(jù)采集和存儲

1.6 參考文獻(xiàn)

第2章 Hadoop 基礎(chǔ)

2.1 Hadoop 歷史、生態(tài)系統(tǒng)

2.2 Hadoop 的分布式文件系統(tǒng)(HDFS)

2.3 MapReduce 工作原理

2.4 Hadoop 上運行MapReduce

2.5 MapReduce 實例: 分層隨機抽樣

2.6 MapReduce 實例: 聚類分析

2.7 參考文獻(xiàn)

第3章 基于Hadoop 的分布式算法和模型實現(xiàn)

3.1 R 中實現(xiàn)Hadoop 分布式計算

3.2 Mahout 與大數(shù)據(jù)機器學(xué)習(xí)

3.3 利用Mahout 進行數(shù)據(jù)挖掘

3.4 Mahout 實例: Logistics 回歸和隨機森林分類算法

3.5 Mahout 實例: 隨機森林的分布式實現(xiàn)

3.6 參考文獻(xiàn)

第4章 統(tǒng)計模型的MapReduce 實現(xiàn)詳解

4.1 泊松回歸模型: 付費搜索廣告分析

4.2 判別分析: 氣象因素對霧霾影響分析

4.3 分塊Logistics 回歸

4.4 文本分類

4.5 樸素貝葉斯模型

4.6 嶺回歸模型

4.7 推薦系統(tǒng)

4.8 參考文獻(xiàn)

第5章 分布式文件訪問與計算

5.1 Hive 基礎(chǔ)

5.2 HiveQL 數(shù)據(jù)定義(DDL)

5.3 HBase

5.4 Hive 實例: FoodMart 案例

5.5 Hive 實例: Hive Streaming 交互計算

5.6 參考文獻(xiàn)

第6章 Spark 與統(tǒng)計模型

6.1 Spark 簡介

6.2 Spark 工作原理介紹

6.3 Pyspark 命令介紹

6.4 Spark 實例: 通過Word Count 了解Spark 工作流程

6.5 Spark 實例: 二分類學(xué)習(xí)

6.6 Spark 實例: 決策樹模型

6.7 參考文獻(xiàn)

附錄A Hadoop 安裝運行

A.1 單機偽分布式安裝

A.2 全分布式集群

附錄B Mahout 安裝與運行

附錄C Hive 安裝運行

C.1 準(zhǔn)備

C.2 安裝Hive

C.3 配置Hive

附錄D HBase 安裝運行

D.1 安裝配置HBase

D.2 啟動HBase

在線預(yù)覽

前言

本書的編寫受益于中央財經(jīng)大學(xué)聯(lián)合中國人民大學(xué)、北京大學(xué)、中國科學(xué)院大學(xué)和首都經(jīng)濟貿(mào)易大學(xué)五所高校與政府部門和產(chǎn)業(yè)界聯(lián)合共建的大數(shù)據(jù)分析碩士培養(yǎng)協(xié)同創(chuàng)新平臺。我有幸作為該平臺主要課程設(shè)計和講授的教師之一, 負(fù)責(zé)大數(shù)據(jù)分析方向研究生課程\大數(shù)據(jù)分布式計算" 的建設(shè)和教學(xué)。本教材是以該課程2014|2015 年的教學(xué)內(nèi)容和講義輔以教學(xué)案例為藍(lán)本編寫的。

目前市面上與大數(shù)據(jù)相關(guān)的計算類書籍有很多, 但是均面向計算機相關(guān)專業(yè)人員。有的側(cè)重于大數(shù)據(jù)分布式平臺Hadoop 或者Spark 的架構(gòu), 有的側(cè)重于大數(shù)據(jù)計算相關(guān)計算機語言介紹, 有的側(cè)重于大數(shù)據(jù)平臺的系統(tǒng)開發(fā), 但是針對大數(shù)據(jù)分析最為重要和骨髓部分之一的統(tǒng)計模型, 相關(guān)實踐類書籍還相對較少。

本書側(cè)重于統(tǒng)計和機器學(xué)習(xí)模型在大數(shù)據(jù)分布式平臺的應(yīng)用, 從案例入手, 介紹常見統(tǒng)計模型的大數(shù)據(jù)分布式計算原理。基于單機共享內(nèi)存背景開發(fā)的統(tǒng)計軟件很難直接應(yīng)用于分布式存儲的海量數(shù)據(jù)。對于初學(xué)者而言, 在大數(shù)據(jù)平臺下, 即便是開發(fā)簡單的回歸模型或者邏輯斯蒂模型都非常困難, 更不用說復(fù)雜的統(tǒng)計、機器學(xué)習(xí)算法, 這直接阻礙了高效的統(tǒng)計模型在大數(shù)據(jù)中的開發(fā)和部署。

考慮到數(shù)據(jù)相關(guān)工作者在企業(yè)實際策略開發(fā)和建模中R 語言與Python 語言是基礎(chǔ)語言, 為了方便相關(guān)讀者快速入門, 本書的主要語言采用R 語言和Python 語言, 但是本書中提到的大數(shù)據(jù)建模思想是不受語言限制的, 讀者可以根據(jù)自己擅長的語言實現(xiàn)相關(guān)模型的大數(shù)據(jù)開發(fā)。

與傳統(tǒng)的大數(shù)據(jù)計算類書籍不同, 本書的側(cè)重點是統(tǒng)計模型的實際案例解決, 因此本書每章均附有較完整的統(tǒng)計案例。考慮到市面上對于大數(shù)據(jù)平臺的搭建和配置書籍已經(jīng)很多,而且對于企業(yè)而言, 這樣的平臺往往已經(jīng)很完善, 本書淡化了該部分, 感興趣的讀者可以參考相關(guān)書籍或者本書的附錄。

本書按照如下結(jié)構(gòu)組織: 第1 章介紹大數(shù)據(jù)分布式計算的背景和基于R 語言和Python語言的單機并行原理, 讓讀者熟悉分布式的基本概念。第2 章介紹目前流行的大數(shù)據(jù)分布式計算框架Hadoop 的歷史、文件存儲系統(tǒng)以及大數(shù)據(jù)分布式計算的各個擊破原理, 即MapRe-duce。與Hadoop 相關(guān)的安裝配置參見附錄A。第3 章介紹現(xiàn)有大數(shù)據(jù)分布式平臺中常見的統(tǒng)計模型的原理以及案例分析。與之相關(guān)的Mahout 安裝和配置參見附錄B。第4 章以多個案例的形式介紹如何在大數(shù)據(jù)平臺開發(fā)常見統(tǒng)計模型。第5 章介紹分布式文件系統(tǒng)的訪問和操作。與此相關(guān)的Hive、HBase 的安裝參見附錄C 和附錄D。第6 章對學(xué)有余力的讀者介紹Spark 平臺下統(tǒng)計分析的基礎(chǔ), 并配有PySpark 使用基礎(chǔ)和基于Scala 語言的案例。附錄E 介紹Spark 和Scala 的安裝和配置。

在此要特別感謝中國人民大學(xué)統(tǒng)計學(xué)院呂曉玲老師以及李天博、王小寧、丁維悅、曹昕、李榮慶、王張浩、王高斌同學(xué)在本書的編寫過程中對文字和內(nèi)容的大力貢獻(xiàn)。感謝參加五校大數(shù)據(jù)分析方向研究生課程的同學(xué)對本書案例的貢獻(xiàn), 他們是成慧敏、陳思聰、陳晞、劉利恒、劉智彬、魏詩韻、吳雅雯、辛思、張楚妍、張詩玉、趙哲匯、鄭巧筠、朱述政。沒有呂老師和幾位同學(xué)的協(xié)助, 就沒有《大數(shù)據(jù)分布式計算與案例》一書的最終及時成稿。感謝百度大數(shù)據(jù)部高級工程師康雁飛博士、中央財經(jīng)大學(xué)統(tǒng)計與數(shù)學(xué)學(xué)院方劍和劉靜同學(xué)對本書的認(rèn)真校對。

由于編寫時間倉促和本人水平有限, 書中的錯誤和紕漏一定有很多, 懇請讀者不吝指出以便作出修正。

網(wǎng)友評論(不代表本站觀點)

免責(zé)聲明

更多出版社
主站蜘蛛池模板: 安龙县| 巴楚县| 珲春市| 临邑县| 平罗县| 清流县| 盐亭县| 潞西市| 桃园县| 金昌市| 青田县| 大埔区| 云南省| 论坛| 阳朔县| 龙岩市| 双桥区| 闵行区| 慈利县| 沙湾县| 和政县| 即墨市| 阆中市| 青阳县| 耒阳市| 中江县| 云阳县| 隆化县| 峨边| 辽宁省| 日土县| 仁寿县| 霍城县| 东乡县| 称多县| 昌宁县| 陇南市| 汶川县| 万山特区| 海原县| 叶城县|