數據科學是一門新興的熱門科學,國外大學紛紛設立同名課程,相應的專業、課程及書籍也深受歡迎。本書是國內及時部系統闡述數據科學的重要專著,填補了國內此領域的空白。本書在結構設計和內容選擇上不僅充分借鑒了國外著名大學設立的相關課程以及全球暢銷的外文專著,也考慮到了國內相關課程定位與專業人才的培養需求。 本書共包括8個部分(基礎知識、數據預處理、數據統計、機器學習、數據可視化、數據計算、數據管理以及R編程),既涵蓋了數據科學的基本內容,又避免了與相關課程的低級重復。每章設有綜合例題,做到理論學習與動手操作相結合。例題均采用R語言完成數據科學的特定任務。每章的首尾配有“導讀”與“小結”,便于教師的教學和學生的自學。“習題”部分以主動數據收集和分析的開放題目為主,旨在幫助學生提高自我學習能力。書后附有R語言語法,便于入門的教學與學習。 本書可以滿足數據科學、計算機科學與技術、管理學、數據統計、數據分析、圖情檔類等多個專業的老師、學生(含碩士生和博士生)的教學與自學需要。
(1)本書是國內本系統介紹數據科學的重要的專著,填補了國內此領域的空白。 (2)在結構設計和內容選擇上,不僅充分借鑒了國外著名大學設立的相關課程以及全球暢銷的英文專著,而且也考慮到了國內相關課程定位與專業人才的培養需求。
目錄
第1章基礎理論
1.1數據
1.1.1數據模型
1.1.2數據維度
1.2大數據
1.2.1內涵與特征
1.2.2大數據時代的新理念
1.2.3大數據時代的新術語
1.3數據科學概述
1.3.1研究目的
1.3.2理論基
1.3.3研究內容
1.3.4基本流程
1.3.5主要原則
1.3.6典型應用
1.4數據科學家
1.4.1主要任務
1.4.2能力要求
1.4.3常用工具
1.4.4團隊工作
1.5數據科學項目
1.5.1角色定義
1.5.2基本流程
1.6應用案例
小結
習題
參考文獻及擴展閱讀資料
第2章數據預處理
2.1數據質量
2.1.1統計學規律
2.1.2語言學規律
2.1.3數據連續性理論
2.1.4數據鑒別技術
2.1.5探索性數據分析
2.2數據審計
2.2.1預定義審計
2.2.2自定義審計
2.2.3可視化審計
2.3數據清洗
2.3.1缺失數據處理
2.3.2冗余數據處理
2.3.3噪聲數據處理
2.4數據變換
2.4.1大小變換
2.4.2類型變換
2.5數據集成
2.5.1基本類型
2.5.2主要問題
2.6其他預處理方法
2.6.1數據脫敏
2.6.2數據歸約
2.6.3數據標注
2.7應用案例
小結
習題
參考文獻及擴展閱讀資料
第3章數據統計
3.1概率分布
3.1.1正態分布
3.1.2卡方分布
3.1.3t分布
3.1.4F分布
3.2參數估計
3.2.1點估計
3.2.2區間估計
3.3假設檢驗
3.3.1參數檢驗
3.3.2非參數檢驗
3.4基本分析方法
3.4.1相關分析
3.4.2回歸分析
3.4.3方差分析
3.4.4分類分析
3.4.5聚類分析
3.4.6時間序列分析
3.4.7其他方法
3.5元分析方法
3.5.1加權平均法
3.5.2優化方法
3.6應用案例
小結
習題
參考文獻及擴展閱讀資料
第4章機器學習
4.1基本概念
4.1.1定義
4.1.2應用
4.2機器學習活動
4.2.1訓練經驗的選擇
4.2.2目標函數的選擇
4.2.3目標函數的表示
4.2.4函數逼近算法的選擇
4.3機器學習系統
4.3.1執行器
4.3.2評價器
4.3.3泛化器
4.3.4實驗生成器
4.4主要類型
4.4.1基于實例學習
4.4.2概念學習
4.4.3決策樹學習
4.4.4人工神經網絡學習
4.4.5貝葉斯學習
4.4.6遺傳算法
4.4.7分析學習
4.4.8增強學習
4.5典型算法
4.5.1KMeans算法
4.5.2KNN算法
4.5.3ID3算法
4.6應用案例
小結
習題
參考文獻及擴展閱讀資料
第5章數據可視化
5.1主要類型
5.1.1科學可視化
5.1.2信息可視化
5.1.3可視分析學
5.2基本模型
5.2.1順序模型
5.2.2循環模型
5.2.3分析模型
5.3常用方法
5.3.1視覺編碼
5.3.2統計圖表
5.3.3圖論方法
5.3.4視覺隱喻
5.3.5圖形符號學
5.3.6面向領域的方法
5.4視覺編碼
5.4.1視覺感知
5.4.2數據類型
5.4.3視覺通道
5.4.4視覺假象
5.5評價與改進
5.5.1測評原則
5.5.2測評流程
5.5.3測評方法
5.6應用案例
小結
習題
參考文獻及擴展閱讀資料
第6章數據計算
6.1計算模式的演變
6.1.1集中式計算
6.1.2分布式計算
6.1.3網格計算
6.1.4云計算
6.2主流計算框架——MapReduce
6.2.1基本思想
6.2.2實現過程
6.2.3主要特征
6.2.4關鍵技術
6.5.5下一代MapReduce
6.3主流計算平臺——Hadoop MapReduce
6.3.1數據流
6.3.2任務處理
6.3.3技術實現
6.3.4YARN
6.4其他相關計算系統——Hadoop生態系統
6.4.1HDFS
6.4.2Hive
6.4.3Pig
6.4.4Mahout
6.4.5HBase
6.4.6ZooKeeper
6.4.7Flume
6.4.8Sqoop
6.5應用案例
小結
習題
參考文獻及擴展閱讀資料
第7章數據管理
7.1基本類型
7.1.1關系數據庫
7.1.2NoSQL
7.1.3關系云
7.2體系結構
7.2.1MasterSlave結構
7.2.2P2P結構
7.3關鍵技術
7.3.1數據模型
7.3.2數據分布
7.3.3數據一致性
7.3.4CAP理論與BASE原則
7.3.5視圖與物化視圖
7.3.6事務與版本戳
7.4典型系統
7.4.1Memcached
7.4.2MongoDB
7.4.3Cassandra
7.4.4HBase
7.5應用案例
小結
習題
參考文獻及擴展閱讀資料
附錄AR語言與R軟件
附錄B術語索引
入門學者也能看懂,買值了!
書很好贊,賣家發貨很快~
收到之后很滿意 推薦大家購買
內容詳實,轉行數據科學必備的啟蒙書
包裝完好,物流很快!
因推薦而屯書,要慢慢擠時間來看,時間太少了呀,另外,當當包裝確實太大意,有一本書都磕碰壞了,哎
書挺不錯的。
物流很快,當當服務也Nice;一本內容前沿,通俗易懂的好書~~~
今天收到書了,制作很精美。內容很新,結構清晰。目測是一本能看得進去的書,一級贊哦~~
非常棒的一本書!受益匪淺,朋友看了也讓幫忙買!
前言句句深入人心,很有范。一口氣讀下機器學習那一章,原來深奧的理論也這樣通俗易懂,好書好書,非常經典,大贊
購買了很多大數據和數據科學相關的圖書,這本書才是符合我需要的,滿滿的干貨
當當發貨速度很快,早就對數據科學很敢興趣,此書作為國內學者關于數據科學的第一本專著,一定要好好拜讀一下。
正在看,感覺整個體系架構很嚴謹,很適合對數據科學有興趣的初學者。其實對我來講數據科學的內容還是有點枯燥的,但是這本書就很能讓人讀得下去。好評!
大數據熱的時代,處處充斥對數據、對數據應用的討論,但是對一些基本的數據知識比較迷茫,所以看到書名眼前一亮。大致翻閱,這本書系統性很強,引用材料較新,理論知識普及和實踐引用性都很強,為相關研究者、對數據科學感興趣的讀者提供了很有用知識,值得購買,贊一個。
大道至簡,通俗易懂,簡約而不簡單。這本書選材新穎,包含了數據科學的最新成果與實踐,內容詳實,介紹了數據科學的理論基礎與實驗操作,體系嚴謹,搭建了數據科學的整體框架,對于數據科學的學習參考、激發靈感、開闊視野大有裨益,???...