日韩偷拍一区二区,国产香蕉久久精品综合网,亚洲激情五月婷婷,欧美日韩国产不卡

在線客服
基于R語言的自動數(shù)據(jù)收集:網(wǎng)絡(luò)抓取和文本挖掘?qū)嵱弥改蠄D書
人氣:58

基于R語言的自動數(shù)據(jù)收集:網(wǎng)絡(luò)抓取和文本挖掘?qū)嵱弥改?/h3>
本書共17章。第1章是概述,闡述數(shù)據(jù)挖掘的意義與實(shí)際應(yīng)用。第2~8章介紹網(wǎng)絡(luò)和數(shù)據(jù)技術(shù)基礎(chǔ)知識。這一部分內(nèi)容涉及互聯(lián)網(wǎng)上通信、交換、保存和顯示信息的基礎(chǔ)技術(shù)(如HTTP、HTML、XML、JSON、AJAX、SQL等),并講解...

內(nèi)容簡介

本書共17章。第1章是概述,闡述數(shù)據(jù)挖掘的意義與實(shí)際應(yīng)用。第2~8章介紹網(wǎng)絡(luò)和數(shù)據(jù)技術(shù)基礎(chǔ)知識。這一部分內(nèi)容涉及互聯(lián)網(wǎng)上通信、交換、保存和顯示信息的基礎(chǔ)技術(shù)(如HTTP、HTML、XML、JSON、AJAX、SQL等),并講解用于查詢網(wǎng)絡(luò)文檔和數(shù)據(jù)集的基本技術(shù)(XPath和正則表達(dá)式)。第9~11章介紹網(wǎng)絡(luò)抓取和文本挖掘的實(shí)用工具箱。這一部分由三個核心章節(jié)組成:第9章講解多種網(wǎng)絡(luò)抓取技術(shù),涉及正則表達(dá)式的使用、XPath、各類API接口、其他數(shù)據(jù)類型以及開源社區(qū)相關(guān)的技術(shù);第10章深入介紹用于統(tǒng)計性文本處理的技術(shù);第11章給出關(guān)于用R管理數(shù)據(jù)的項目中常見問題的一些見解。第12~17章介紹實(shí)際案例分析,涉及美國參議院里的合作網(wǎng)絡(luò)、從半結(jié)構(gòu)化文檔解析信息、利用Twitter預(yù)測2014年奧斯卡獎、繪制姓氏地理分布圖、采集關(guān)于手機(jī)的數(shù)據(jù)、分析產(chǎn)品評論里的情緒等。這些案例分析針對日常的數(shù)據(jù)抓取和文本處理的工作流程、真實(shí)環(huán)境數(shù)據(jù)中的陷阱以及規(guī)避它們的方法等問題提供一些實(shí)用的見解。

目錄

譯者序

前 言

第1章概述

1.1案例研究:瀕危世界遺產(chǎn)地

1.2有關(guān)網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量的一些討論

1.3傳播、提取和保存網(wǎng)絡(luò)數(shù)據(jù)的技術(shù)

1.3.1在網(wǎng)絡(luò)上傳播內(nèi)容的技術(shù)

1.3.2從Web文檔中提取信息的

技術(shù)

1.3.3 數(shù)據(jù)保存的技術(shù)

1.4本書的結(jié)構(gòu)

及時部分網(wǎng)絡(luò)和數(shù)據(jù)技術(shù)入門

第2章HTML

2.1瀏覽器顯示及源代碼

2.2語法規(guī)則

2.2.1標(biāo)簽、元素和屬性

2.2.2樹形結(jié)構(gòu)

2.2.3注釋

2.2.4保留字符和特殊字符

2.2.5文檔類型定義

2.2.6 空格和換行

2.3標(biāo)簽和屬性

2.3.1 錨標(biāo)簽

2.3.2 元數(shù)據(jù)標(biāo)簽

2.3.3 外部引用標(biāo)簽

2.3.4 強(qiáng)調(diào)標(biāo)簽、和

2.3.5段落標(biāo)簽

2.3.6 標(biāo)題標(biāo)簽、、

2.3.7 通過、和

列舉內(nèi)容

2.3.8組織型標(biāo)簽和

2.3.9 標(biāo)簽及其同伴

2.3.10 外部腳本標(biāo)簽

2.3.11 表格標(biāo)簽、、

2.4解析

2.4.1 解析簡介

2.4.2丟棄節(jié)點(diǎn)

2.4.3在創(chuàng)建過程中提取信息

小結(jié)

延伸閱讀

習(xí)題

第3章 XML和JSON

3.1 XML文檔示例

3.2 XML語法規(guī)則

3.2.1 元素和屬性

3.2.2 XML結(jié)構(gòu)

第4章xpath

第5章HTTP

第6章AJAX

第7章SQL和關(guān)系型數(shù)據(jù)庫

第8章正則表達(dá)式和基本字符串函數(shù)

第二部分網(wǎng)絡(luò)抓取和文本挖掘?qū)嵱霉ぞ呦?/p>

第9章網(wǎng)絡(luò)抓取

第10章統(tǒng)計性文本處理

第11章管理數(shù)據(jù)項目

第三部分一組案例分析

第12章美國參議院里的合作網(wǎng)絡(luò)

第13章從半結(jié)構(gòu)化文檔解析信息

第14章利用Twitter預(yù)測2014年奧斯卡獎

第15章繪制姓氏地理分布圖

第16章采集關(guān)于手機(jī)的數(shù)據(jù)

第17章分析產(chǎn)品評論里的情緒

網(wǎng)友評論(不代表本站觀點(diǎn))

免責(zé)聲明

更多出版社
主站蜘蛛池模板: 富锦市| 内乡县| 石台县| 米林县| 五常市| 芜湖市| 汕尾市| 渝中区| 申扎县| 弥渡县| 商丘市| 呼伦贝尔市| 阿城市| 岫岩| 泾源县| 忻州市| 密山市| 怀宁县| 古田县| 云南省| 连山| 米易县| 高州市| 黄石市| 黄浦区| 新和县| 华容县| 资溪县| 鄂托克前旗| 宜君县| 湘潭县| 邮箱| 阿图什市| 石城县| 公安县| 常德市| 华安县| 江永县| 龙口市| 隆尧县| 进贤县|