日韩偷拍一区二区,国产香蕉久久精品综合网,亚洲激情五月婷婷,欧美日韩国产不卡

在線客服

大數(shù)據(jù)技術(shù)實(shí)用13篇

引論:我們?yōu)槟砹?3篇大數(shù)據(jù)技術(shù)范文,供您借鑒以豐富您的創(chuàng)作。它們是您寫作時(shí)的寶貴資源,期望它們能夠激發(fā)您的創(chuàng)作靈感,讓您的文章更具深度。

大數(shù)據(jù)技術(shù)

篇1

“大數(shù)據(jù)”是從英語“Big Data”一詞翻譯而來的,是當(dāng)前IT界熱議和追逐的對象,是繼物聯(lián)網(wǎng)、云計(jì)算技術(shù)后世界又一熱議的信息技術(shù),發(fā)展迅速。截至2011年年底,全球互聯(lián)網(wǎng)總數(shù)據(jù)存儲(chǔ)量已達(dá)100億TB以上,并且以59%以上的年增長率遞增。麥肯錫公司在2011年的報(bào)告(Bigdata:the Next FrontierforInnovation)中,對這種密集型數(shù)據(jù)爆炸的現(xiàn)象稱為“大數(shù)據(jù)”時(shí)代的到來。大數(shù)據(jù)領(lǐng)域出現(xiàn)的許多新技術(shù),是大數(shù)據(jù)采集、存儲(chǔ)、處理和呈現(xiàn)的有力武器。

1 大數(shù)據(jù)概念

大數(shù)據(jù)概念的前身是海量數(shù)據(jù),但兩者有很大的區(qū)別。海量數(shù)據(jù)主要強(qiáng)調(diào)了數(shù)據(jù)量的規(guī)模,對其特性并沒有特別關(guān)注。而大數(shù)據(jù)對傳播速率、體積、特征等數(shù)據(jù)的各種特性進(jìn)行了描述。目前對大數(shù)據(jù)最廣泛的定義是:大數(shù)據(jù)是無法在一定時(shí)間內(nèi)用通常的軟件工具進(jìn)行收集、分析、管理的大量數(shù)據(jù)的集合。大數(shù)據(jù)的特點(diǎn)一般用“4V”概括,即:Volume:數(shù)據(jù)量大,目前大數(shù)據(jù)的最小單位一般被認(rèn)為是10~20TB的量級;Variety:數(shù)據(jù)類型多,包括了結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù);value:數(shù)據(jù)的價(jià)值密度很低;velocity:數(shù)據(jù)產(chǎn)生和處理的速度非常快。

2 大數(shù)據(jù)相關(guān)技術(shù)

2.1 大數(shù)據(jù)處理通用技術(shù)架構(gòu)

大數(shù)據(jù)的基本處理流程與傳統(tǒng)數(shù)據(jù)處理流程的主要區(qū)別在于:由于大數(shù)據(jù)要處理大量、非結(jié)構(gòu)化的數(shù)據(jù),所以在各個(gè)處理環(huán)節(jié)中都可以采用并行處理。目前,MapReduce等分布式處理方式已經(jīng)成為大數(shù)據(jù)處理各環(huán)節(jié)的通用處理方法。

MapReduce分布式方法最先由谷歌設(shè)計(jì)并實(shí)現(xiàn),包括分布式文件系統(tǒng)GFS、MapReduce分布式編程環(huán)境以及分布式大規(guī)模數(shù)據(jù)庫管理系統(tǒng)Bigrable。MapReduce是一套軟件框架,包括Map和Reduce兩個(gè)階段,可以進(jìn)行海量數(shù)據(jù)分割、任務(wù)分解與結(jié)果匯總,從而完成海量數(shù)據(jù)的并行處理。MapReduce的工作原理是先分后合的數(shù)據(jù)處理方式。Map即“分解”,把海量數(shù)據(jù)分割成若干部分,分給多臺(tái)處理器并行處理;Reduce即“合并”,把各臺(tái)處理器處理后的結(jié)果進(jìn)行匯總操作,以得到最終結(jié)果。用戶只需要提供自己的Map函數(shù)以及Reduce函數(shù)就可以在集群上進(jìn)行大規(guī)模的分布式數(shù)據(jù)處理。MapReduce將處理任務(wù)分配到不同的處理節(jié)點(diǎn),因此具有更強(qiáng)的并行處理能力。

2.2 大數(shù)據(jù)采集

大數(shù)據(jù)的采集是指利用數(shù)據(jù)庫等方式接收發(fā)自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù)。大數(shù)據(jù)采集的主要特點(diǎn)是并發(fā)訪問量大,因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬的用戶來進(jìn)行訪問和操作,比如火車票售票網(wǎng)站的并發(fā)訪問量在峰值時(shí)達(dá)到上百萬,這時(shí)傳統(tǒng)的數(shù)據(jù)采集工具很容易失效。大數(shù)據(jù)采集方法主要包括:系統(tǒng)日志采集、網(wǎng)絡(luò)數(shù)據(jù)采集、數(shù)據(jù)庫采集、其他數(shù)據(jù)采集等四種。

2.3 大數(shù)據(jù)分享

目前數(shù)據(jù)分享主要通過數(shù)據(jù)集市和開放數(shù)據(jù)平臺(tái)等方法實(shí)現(xiàn)。開放數(shù)據(jù)平臺(tái)可以提供涵蓋本地服務(wù)、娛樂、教育和醫(yī)療等方方面面的數(shù)據(jù)集合,用戶不但可以通過API訪問,還可以很方便地通過SDK集成到移動(dòng)應(yīng)用當(dāng)中。在線數(shù)據(jù)集市除了提供下載數(shù)據(jù)的功能外,還為用戶提供上傳和交流數(shù)據(jù)的場所。數(shù)據(jù)平臺(tái)和數(shù)據(jù)集市不但吸引有數(shù)據(jù)需求用戶,還能夠吸引很多數(shù)據(jù)開發(fā)者在平臺(tái)上進(jìn)行開發(fā)。

2.4 大數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理就是對采集的數(shù)據(jù)進(jìn)行清洗、填補(bǔ)、平滑、合并、規(guī)格化以及檢查一致性等處理,并對數(shù)據(jù)的多種屬性進(jìn)行初步組織,從而為數(shù)據(jù)的存儲(chǔ)、分析和挖掘做好準(zhǔn)備。通常數(shù)據(jù)預(yù)處理包含三個(gè)部分:數(shù)據(jù)清理、數(shù)據(jù)集成和變換和數(shù)據(jù)規(guī)約。

2.5 大數(shù)據(jù)存儲(chǔ)及管理

大數(shù)據(jù)需要行之有效的存儲(chǔ)和管理,否則人們不能處理和利用數(shù)據(jù),更不能從數(shù)據(jù)中得到有用的信息。目前,大數(shù)據(jù)的存儲(chǔ)和管理技術(shù)主要分三類:分布式文件系統(tǒng)、數(shù)據(jù)倉庫和非關(guān)系型數(shù)據(jù)庫(NoSOL)。

2.6 大數(shù)據(jù)分析及挖掘

大數(shù)據(jù)的分析和挖掘是一種決策支持過程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫等技術(shù),高度自動(dòng)化地分析大數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,從而在大數(shù)據(jù)中提取有用信息。大數(shù)據(jù)的分析和挖掘與傳統(tǒng)的數(shù)據(jù)挖掘比較有兩個(gè)特點(diǎn):一是通常采用并行處理的方式;二是大數(shù)據(jù)分析對實(shí)時(shí)處理的要求很高,流處理等實(shí)時(shí)處理技術(shù)受到人們歡迎。常用的方法有:機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、模式識(shí)別、統(tǒng)計(jì)分析、并行處理。

2.7 大數(shù)據(jù)檢索

①數(shù)據(jù)庫實(shí)時(shí)檢索:在數(shù)據(jù)倉庫或者NoSOL等大數(shù)據(jù)存儲(chǔ)平臺(tái)上,或者多個(gè)不同結(jié)構(gòu)的數(shù)據(jù)存儲(chǔ)平臺(tái)之間快速、實(shí)時(shí)地查詢和檢索不同結(jié)構(gòu)的數(shù)據(jù)。②實(shí)時(shí)搜索引擎:對互聯(lián)網(wǎng)上的大量數(shù)據(jù)和信息進(jìn)行即時(shí)、快速搜索,實(shí)現(xiàn)即搜即得的效果。目前各大搜索引擎都在致力于實(shí)時(shí)搜索的實(shí)現(xiàn)。

2.8 大數(shù)據(jù)可視化

可以提供更為清晰直觀的數(shù)據(jù)感官,將錯(cuò)綜復(fù)雜的數(shù)據(jù)和數(shù)據(jù)之間的關(guān)系,通過圖片、映射關(guān)系或表格,以簡單、友好、易用的圖形化、智能化的形式呈現(xiàn)給用戶供其分析使用,可通過數(shù)據(jù)訪問接口或商業(yè)智能門戶實(shí)現(xiàn),通過直觀的方式表達(dá)出來。可視化與可視分析通過交互可視界面來進(jìn)行分析、推理和決策;從海量、動(dòng)態(tài)、不確定甚至相互沖突的數(shù)據(jù)中整合信息,獲取對復(fù)雜情景的更深層的理解;可供人們檢驗(yàn)已有預(yù)測,探索未知信息,同時(shí)提供快速、可檢驗(yàn)、易理解.的評估和更有效的交流手段。可視化是人們理解復(fù)雜現(xiàn)象,診釋復(fù)雜數(shù)據(jù)的重要手段和途徑。

2.9 大數(shù)據(jù)應(yīng)用

①視頻搜索;②內(nèi)容分析;③理賠分析;④社交網(wǎng)絡(luò)分析;⑤社會(huì)分析;⑥社交媒體監(jiān)控。

篇2

近幾年,大數(shù)據(jù)(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。2012 年3 月,奧巴馬公布了美國《大數(shù)據(jù)研究和發(fā)展計(jì)劃》,標(biāo)志著大數(shù)據(jù)已經(jīng)成為國家戰(zhàn)略,上升為國家意志。從硅谷到北京,大數(shù)據(jù)的話題傳播迅速。

1 大數(shù)據(jù)時(shí)代

隨著計(jì)算機(jī)技術(shù)全面融入社會(huì)生活,經(jīng)過半個(gè)多世紀(jì)的發(fā)展,信息爆炸已經(jīng)積累到了一個(gè)開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。最先經(jīng)歷信息爆炸的學(xué)科,如天文學(xué)和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個(gè)概念。

1.1 大數(shù)據(jù)時(shí)代產(chǎn)生的背景

最早提出“大數(shù)據(jù)”時(shí)代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來。”大規(guī)模生產(chǎn)、分享和應(yīng)用海量數(shù)據(jù)的時(shí)代之所以能夠開啟,源于信息科技的進(jìn)步、互聯(lián)網(wǎng)與云計(jì)算技術(shù)和物聯(lián)網(wǎng)的發(fā)展。

(1)信息科技的進(jìn)步。信息處理、信息存儲(chǔ)和信息傳遞是信息科技的三個(gè)主要支撐,存儲(chǔ)設(shè)備性價(jià)比不斷提升、網(wǎng)絡(luò)帶寬的持續(xù)增加,為大數(shù)據(jù)的存儲(chǔ)和傳播提供了物質(zhì)基礎(chǔ)。

(2)互聯(lián)網(wǎng)與云計(jì)算技術(shù)。互聯(lián)網(wǎng)時(shí)代,電子商務(wù)、社交網(wǎng)絡(luò)和移動(dòng)通信產(chǎn)生了大量結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),以云計(jì)算為基礎(chǔ)的信息存儲(chǔ)、分享和挖掘手段,可以便宜、有效地將這些大量、高速、多變化的終端數(shù)據(jù)存儲(chǔ)下來,并隨時(shí)進(jìn)行分析與計(jì)算。互聯(lián)網(wǎng)領(lǐng)域的公司最早重視數(shù)據(jù)資產(chǎn)的價(jià)值,他們從大數(shù)據(jù)中淘金,并且引領(lǐng)著大數(shù)據(jù)的發(fā)展趨勢。

(3)物聯(lián)網(wǎng)的發(fā)展。眾所周知,物聯(lián)網(wǎng)時(shí)代所創(chuàng)造的數(shù)據(jù)不是互聯(lián)網(wǎng)時(shí)代所能比擬的,而且物聯(lián)網(wǎng)的數(shù)據(jù)是異構(gòu)的、多樣性的、非結(jié)構(gòu)和有噪聲的,最顯著的特點(diǎn)是是它的高增長率。大數(shù)據(jù)是物聯(lián)網(wǎng)中的關(guān)鍵技術(shù),物聯(lián)網(wǎng)對大數(shù)據(jù)技術(shù)的要求更高,它的發(fā)展離不開大數(shù)據(jù)。

1.2 大數(shù)據(jù)與數(shù)據(jù)挖掘

Google、Amazon、Facebook、Twitter,這些稱霸全球互聯(lián)網(wǎng)的企業(yè),它們的成功都具備一個(gè)共同的因素,就是收集分析海量的各種類型的數(shù)據(jù),并能夠快速獲取影響未來的信息的能力。“購買了此商品的顧客還購買了這些商品”,這恐怕是世界上最廣為人知的一種商品推薦系統(tǒng)了,而創(chuàng)造出這個(gè)系統(tǒng)的正是Amazon。Amazon 通過分析商品的購買記錄、瀏覽歷史記錄等龐大的用戶行為歷史數(shù)據(jù),并與行為模式相似的其他用戶的歷史數(shù)據(jù)進(jìn)行對照,提供出最適合的商品推薦信息。Facebook 可以為用戶提供類似“也許你還認(rèn)識(shí)這些人”的提示,這種提示可以準(zhǔn)確到令人恐怖的程度,而這正是對龐大的數(shù)據(jù)進(jìn)行分析而得到的結(jié)果。這種以數(shù)據(jù)分析為核心的技術(shù)就是數(shù)據(jù)挖掘(data mining)。

從技術(shù)角度看,數(shù)據(jù)挖掘是從大量的、復(fù)雜的、不規(guī)則的、隨機(jī)的、模糊的數(shù)據(jù)中獲取隱含的、人們事先沒有發(fā)覺的、有潛在價(jià)值的信息和知識(shí)的過程。從商業(yè)角度來說,數(shù)據(jù)挖掘是從龐大的數(shù)據(jù)庫中抽取、轉(zhuǎn)換、分析一些潛在規(guī)律和價(jià)值,從中獲取輔助商業(yè)決策的關(guān)鍵信息和有用知識(shí)。大數(shù)據(jù)概念的提出,將為數(shù)據(jù)挖掘技術(shù)的發(fā)展和應(yīng)用帶來一個(gè)很大的機(jī)遇。

2 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘旨在從大數(shù)據(jù)中提取隱藏的預(yù)測性信息,用便于理解和觀察的方式反映給用戶,作為決策的依據(jù)。

2.1 數(shù)據(jù)挖掘原理

數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(Knowledge Diseoveryin Databases,KDD),是一個(gè)從數(shù)據(jù)庫或數(shù)據(jù)倉庫中發(fā)現(xiàn)并抽取隱含的、明顯未知的、具有潛在用處的信息的過程。數(shù)據(jù)挖掘一般流程主要包括三個(gè)階段:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果解釋和評價(jià)。在數(shù)據(jù)挖掘的處理過程中,數(shù)據(jù)挖掘分析方法是最為關(guān)鍵的。

(1)數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)準(zhǔn)備是從海量數(shù)據(jù)源得到數(shù)據(jù)挖掘所用的數(shù)據(jù),將數(shù)據(jù)集成到一起的過程。由于數(shù)據(jù)收集階段得到的數(shù)據(jù)可能有一定的污染,即數(shù)據(jù)可能存在不一致,或有缺失數(shù)據(jù)、臟數(shù)據(jù)的存在,因此需通過數(shù)據(jù)整理,對數(shù)據(jù)進(jìn)行清洗及預(yù)處理。

(2)數(shù)據(jù)挖掘。是數(shù)據(jù)挖掘中最關(guān)鍵的一步,使用智能的方法提取數(shù)據(jù)模式,例如決策樹、分類和聚類、關(guān)聯(lián)規(guī)則和神經(jīng)網(wǎng)絡(luò)等。首先決定要提取什么樣的模型,然后選取相應(yīng)的算法參數(shù),分析數(shù)據(jù)從而得到可能形成知識(shí)的模式模型。

(3)結(jié)果解釋和評價(jià)。數(shù)據(jù)挖掘后的結(jié)果需要轉(zhuǎn)換成用戶能夠理解的規(guī)則或模式,并根據(jù)其是否對決策問題具有實(shí)際意義進(jìn)行評價(jià)。

2.2 數(shù)據(jù)挖掘技術(shù)在營銷中的應(yīng)用

無差別的大眾媒體營銷已經(jīng)無法滿足零和的市場環(huán)境下的競爭要求。精準(zhǔn)營銷是企業(yè)現(xiàn)在及未來的發(fā)展方向,在精準(zhǔn)營銷領(lǐng)域,最常用的數(shù)據(jù)挖掘分析方法包括分類、聚類和關(guān)聯(lián)三類。

(1)關(guān)聯(lián)規(guī)則。挖掘關(guān)聯(lián)規(guī)則就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性,例如空間關(guān)聯(lián)挖掘出啤酒與尿布效應(yīng);時(shí)間關(guān)聯(lián)挖掘出孕嬰用品與家居裝修關(guān)系;時(shí)間關(guān)聯(lián)挖掘出調(diào)味品、紙巾與化妝品的消費(fèi)等。

此外,關(guān)聯(lián)規(guī)則發(fā)現(xiàn)也可用于序列模式發(fā)現(xiàn)。序列模式發(fā)現(xiàn)的側(cè)重點(diǎn)在于分析數(shù)據(jù)項(xiàng)集在時(shí)間上或序列上的前后(因果)規(guī)律,可以看作是一種特定的關(guān)聯(lián)規(guī)則。例如顧客在購買了打印機(jī)后在一段時(shí)間內(nèi)是否會(huì)購買墨盒。

(2)分類分析。分類是假定數(shù)據(jù)庫中的每個(gè)對象屬于一個(gè)預(yù)先給定的類,從而將數(shù)據(jù)庫中的數(shù)據(jù)分配到給定的類中。它屬于預(yù)測性模型,例如在銀行業(yè),事先定義用戶的信用狀況分為兩類:信用好和信用壞,對于一個(gè)信用狀態(tài)未知的用戶,如果需要確定其信用度,可以采用“決策樹”法構(gòu)建一個(gè)分類模型,決策樹方法著眼于從一組無次序、無規(guī)則的客戶數(shù)據(jù)庫中推理出決策樹表現(xiàn)形式的分類規(guī)則。決策樹的非葉子節(jié)點(diǎn)均是客戶的一些基本特征,葉子節(jié)點(diǎn)是客戶分類標(biāo)識(shí),由根節(jié)點(diǎn)至上而下,到每個(gè)葉子節(jié)點(diǎn),就生成了一條規(guī)則,由該決策樹可以得到很多規(guī)則,構(gòu)成了一個(gè)規(guī)則集合,從而進(jìn)行數(shù)據(jù)分析。

(3)聚類分析。聚類是將物理或抽象對象的集合進(jìn)行分組,然后組成為由類似或相似的對象組成的多個(gè)分類的分析過程,其目的就是通過相似的方法來收集數(shù)據(jù)分類。為品牌找客戶,回答品牌“誰來賣”是精準(zhǔn)營銷首先要解決的問題,科學(xué)細(xì)分客戶是解決這一問題的有效手段。聚類可以將目標(biāo)客戶分成多個(gè)類,同一個(gè)類中的客戶有很大的相似性,表現(xiàn)在購買行為的高度一致,不同類間的客戶有很大的相異性,表現(xiàn)在購買行為的截然不同。

3 結(jié)語

大數(shù)據(jù)時(shí)代背景下“數(shù)據(jù)成為資產(chǎn)”,數(shù)據(jù)挖掘技術(shù)作為支撐精準(zhǔn)營銷的重要手段,將它應(yīng)用于營銷行業(yè)的決策中,不僅拓展了數(shù)據(jù)挖掘技術(shù)的應(yīng)用范圍,而且大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)可以幫助企業(yè)獲得突破性回報(bào)。

參考文獻(xiàn)

[1]維克托?邁爾―舍恩伯格;肯尼思?庫克耶.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].周濤譯.杭州:浙江人民出版社,2013.

[2]王偉玲.大數(shù)據(jù)產(chǎn)業(yè)的戰(zhàn)略價(jià)值研究與思考.技術(shù)經(jīng)濟(jì)與管理研究[J],2015(1).

篇3

關(guān)于數(shù)據(jù)方面的新名詞是層出不窮,云計(jì)算、物聯(lián)網(wǎng)的概念還沒有完全理解,大數(shù)據(jù)的概念又頻頻出現(xiàn)在媒體中,特別是今年“兩會(huì)”期間,在央視報(bào)道中,多次使用大數(shù)據(jù)進(jìn)行實(shí)時(shí)分析。大數(shù)據(jù)的概念從計(jì)算機(jī)業(yè)界也迅速傳播到各行各業(yè),與我們的日常生活也密切的聯(lián)系在一起。不但中國如此,2012年3月,奧巴馬宣布美國政府五大部門投資兩億美元啟動(dòng)“大數(shù)據(jù)研究與開發(fā)計(jì)劃”,【1】大力推動(dòng)大數(shù)據(jù)相關(guān)的收集、儲(chǔ)存、保留、管理、分析和共享海量數(shù)據(jù)技術(shù)研究,以提高美國的科研、教育與國家安全能力,美國政府以及把“大數(shù)據(jù)”技術(shù)上升到國家安全戰(zhàn)略的高度。其他國家也紛紛加大對大數(shù)據(jù)研究的資金投入,同時(shí),許多大公司企業(yè)也將此技術(shù)視作創(chuàng)新前沿。

1 大數(shù)據(jù)概念與特征

但是,到目前為止,業(yè)界關(guān)于大數(shù)據(jù)的概念尚未有統(tǒng)一的定義。最早將大數(shù)據(jù)應(yīng)用于IT環(huán)境的是著名的咨詢公司麥肯錫,它關(guān)于大數(shù)據(jù)的定義是這樣的:大數(shù)據(jù)是指無法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進(jìn)行采集、存儲(chǔ)、管理和分析的數(shù)據(jù)集合。另外,被引用較多得到大家認(rèn)可的還有維基百科的定義:大數(shù)據(jù)指數(shù)量巨大、類型復(fù)雜的數(shù)據(jù)集合,現(xiàn)有的數(shù)據(jù)庫管理工具或傳統(tǒng)的數(shù)據(jù)處理應(yīng)用難以對其進(jìn)行處理。這些挑戰(zhàn)包括如捕獲、收集、存儲(chǔ)、搜索、共享、傳遞、分析與可視化等。【2】

當(dāng)前,較為統(tǒng)一的認(rèn)識(shí)是大數(shù)據(jù)有四個(gè)基本特征:數(shù)據(jù)規(guī)模大(Volume),數(shù)據(jù)種類多(Variety),數(shù)據(jù)要求處理速度快(Velocity),數(shù)據(jù)價(jià)值密度低(Value),即所謂的四V特性。這些特性使得大數(shù)據(jù)區(qū)別于傳統(tǒng)的數(shù)據(jù)概念。【3】

首先,數(shù)據(jù)量龐大是大數(shù)據(jù)的最主要的特征,大數(shù)據(jù)的數(shù)據(jù)規(guī)模是以PB、EB、ZB量級為存儲(chǔ)單位的,數(shù)據(jù)量非常龐大。同時(shí),此類數(shù)據(jù)還在不斷的加速產(chǎn)生,因此,傳統(tǒng)的數(shù)據(jù)庫管理技術(shù)無法在短時(shí)間內(nèi)完成對數(shù)據(jù)的處理。第二,數(shù)據(jù)種類多。與傳統(tǒng)的數(shù)據(jù)相比,大數(shù)據(jù)的數(shù)據(jù)類型種類繁多,包括了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)等多種數(shù)據(jù)類型。傳統(tǒng)的數(shù)據(jù)庫技術(shù)采取關(guān)系型數(shù)據(jù)庫較多,結(jié)構(gòu)單一,而大數(shù)據(jù)重點(diǎn)關(guān)注的是包含大量細(xì)節(jié)信息的非結(jié)構(gòu)化數(shù)據(jù),因此傳統(tǒng)數(shù)據(jù)庫技術(shù)不能適應(yīng)新的大數(shù)據(jù)的要求,傳統(tǒng)的數(shù)據(jù)處理方式也面臨著巨大的挑戰(zhàn)。第三,大數(shù)據(jù)的產(chǎn)生與存儲(chǔ)是動(dòng)態(tài)的,有的處理結(jié)果時(shí)效性要求很高,這就要求對數(shù)據(jù)能夠快速處理,數(shù)據(jù)處理速度快也是大數(shù)據(jù)區(qū)別數(shù)據(jù)倉庫的主要因素。數(shù)據(jù)產(chǎn)生的速度以及快速變化形成的數(shù)據(jù)流,超越了傳統(tǒng)的信息系統(tǒng)的承載能力。最后,數(shù)據(jù)價(jià)值密度低是大數(shù)據(jù)關(guān)注的非結(jié)構(gòu)化數(shù)據(jù)的重要屬性。大數(shù)據(jù)分析是采用原始數(shù)據(jù)的分析,保留了數(shù)據(jù)的全貌,因此一個(gè)事件的全部數(shù)據(jù)都會(huì)被保存,產(chǎn)生的數(shù)據(jù)量激增,而有用的信息可能非常少,因此價(jià)值密度偏低。

2 大數(shù)據(jù)可用性的面臨的技術(shù)與問題

大數(shù)據(jù)并不僅僅指其數(shù)據(jù)量之大,更代表著其潛在的數(shù)據(jù)價(jià)值之大。有研究證明,有效地管理、使用大數(shù)據(jù)能夠給企業(yè)提供更多增強(qiáng)企業(yè)生產(chǎn)能力和競爭能力的機(jī)會(huì),能夠給企業(yè)帶來巨大的潛在商業(yè)價(jià)值。【4】但不可否認(rèn)的是,大數(shù)據(jù)目前也面臨很多負(fù)面影響。低質(zhì)量低密度的數(shù)據(jù)也可能對決策造成致命性的錯(cuò)誤。如何把大數(shù)據(jù)從理論研究到企業(yè)應(yīng)用的轉(zhuǎn)變,還面臨很多問題與挑戰(zhàn)。

(1)可用性理論體系的建立。大數(shù)據(jù)的可用性需要完整的理論做支撐,才能解決諸如如何形式化的表示數(shù)據(jù)可用性、如何評估數(shù)據(jù)可用性、數(shù)據(jù)錯(cuò)誤自動(dòng)發(fā)現(xiàn)和修復(fù)依據(jù)什么理論、如何管理數(shù)據(jù)和數(shù)據(jù)融合、數(shù)據(jù)安全性采取何種策略和理論等一系列問題。因此,要建立完整可用性理論體系,構(gòu)建統(tǒng)一的模型,為大數(shù)據(jù)的進(jìn)一步應(yīng)用提供堅(jiān)實(shí)的理論基礎(chǔ)。

(2)高質(zhì)量數(shù)據(jù)的獲取的能力。大數(shù)據(jù)技術(shù)最基礎(chǔ)的對象就是數(shù)據(jù),是一切應(yīng)用和分析決策的前提。因此,獲取高質(zhì)量數(shù)據(jù)是確保信息可用性的重要因素之一。隨著互聯(lián)網(wǎng)的數(shù)據(jù)不斷增大,物聯(lián)網(wǎng)的興起以及復(fù)雜物理信息系統(tǒng)的應(yīng)用,大數(shù)據(jù)的來源也多種多樣,數(shù)據(jù)模型千差萬別,質(zhì)量也參差不齊,這就為加工整合數(shù)據(jù)帶來非常大的困難。

大數(shù)據(jù)是對事物最原始的全貌記錄,數(shù)據(jù)量規(guī)模很大,但是其中有用的信息非常少,因此,對于處理數(shù)據(jù)來說,數(shù)據(jù)并不是越多越好。如何提高數(shù)據(jù)中的有效數(shù)據(jù)是非常關(guān)鍵的。大量的數(shù)據(jù)中如果僅僅包含了少量的錯(cuò)誤數(shù)據(jù),對分析結(jié)果可能不會(huì)造成很大的影響。但是如果對錯(cuò)誤數(shù)據(jù)沒有有效控制的話,大量錯(cuò)誤數(shù)據(jù)的涌入很可能會(huì)得到完全錯(cuò)誤的結(jié)果。

因此,獲取高質(zhì)量數(shù)據(jù)的能力是大數(shù)據(jù)能否進(jìn)行實(shí)用的關(guān)鍵因素,否則只會(huì)在浪費(fèi)人力物力后獲得完全無效甚至錯(cuò)誤的結(jié)果。但是目前還缺乏系統(tǒng)的研究,對于出現(xiàn)的問題還沒有很好的解決方案,在獲取數(shù)據(jù)方面的工作任重而道遠(yuǎn)。

篇4

1 概述

隨著產(chǎn)生數(shù)據(jù)的設(shè)備使用數(shù)量越來越多,使用范圍越來越廣,大量的非結(jié)構(gòu)化數(shù)據(jù)每秒鐘都被產(chǎn)生出來,比如視頻、照片、社交媒體評論以及網(wǎng)站評述等數(shù)據(jù)都是這樣的數(shù)據(jù)。這意味著越來越多的數(shù)據(jù)不能被存儲(chǔ)在預(yù)定義的結(jié)構(gòu)化表格中,相反,這類數(shù)據(jù)往往由形式自由的文本、日期、數(shù)字適時(shí)組成。某些數(shù)據(jù)源生成速度非常快,甚至來不及分析就進(jìn)行存儲(chǔ)。這也是無法單純依靠傳統(tǒng)數(shù)據(jù)管理和分析工具來存儲(chǔ)、管理、處理和分析大數(shù)據(jù)的原因。為了從這些大數(shù)據(jù)中獲取和分析特定的需求信息,就需要對大數(shù)據(jù)的技術(shù)進(jìn)行研究。

2 大數(shù)據(jù)介紹

大數(shù)據(jù)近幾年來新出現(xiàn)的一個(gè)名詞,它相比傳統(tǒng)的數(shù)據(jù)描述,有自己的四個(gè)特性[1],分別是:Volume(大的數(shù)據(jù)量)、Velocity(輸入和處理速度快)、Variety(數(shù)據(jù)多種多樣)、Veracity(真實(shí)有價(jià)值)。因此,大數(shù)據(jù)需要新的處理模式來取代傳統(tǒng)的數(shù)據(jù)處理方法,它同時(shí)包含數(shù)據(jù)量巨大和快速的處理速度兩層含義。

云計(jì)算是一種大數(shù)據(jù)的處理技術(shù)平臺(tái),綜合了各種資源之后提供一些虛擬技術(shù)服務(wù)。這樣的方式可以很大程度降低用戶維護(hù)、處理、使用數(shù)據(jù)以及其他計(jì)算資源的成本。數(shù)據(jù)單位已不再是用GB,TB能夠滿足的描述需要,而是步入了PB級別的時(shí)代。傳統(tǒng)的數(shù)據(jù)存儲(chǔ)方式已經(jīng)不能滿足這些數(shù)據(jù)的存儲(chǔ)和處理,只有依托云平臺(tái)存儲(chǔ)技術(shù)的方式來解決這個(gè)當(dāng)前已經(jīng)面臨的問題。

3 大數(shù)據(jù)技術(shù)分析

3.1 大數(shù)據(jù)的處理方式

大數(shù)據(jù)的處理方式大致分為數(shù)據(jù)流處理方式和批量數(shù)據(jù)處理方式兩種。

數(shù)據(jù)流處理的方式適合用于對實(shí)時(shí)性要求比較高的場合之中。并不需要等待所有的數(shù)據(jù)都有了之后再進(jìn)行處理,而是有一點(diǎn)數(shù)據(jù)就處理一點(diǎn),更多地要求機(jī)器的處理器有較快速的性能以及擁有比較大的主存儲(chǔ)器容量,對輔助存儲(chǔ)器的要求反而不高。

批量數(shù)據(jù)處理方式是對整個(gè)要處理的數(shù)據(jù)進(jìn)行切割劃分成小的數(shù)據(jù)塊,之后對其進(jìn)行處理。重點(diǎn)在于把大化小——把劃分的小塊數(shù)據(jù)形成小任務(wù)分別單獨(dú)進(jìn)行處理,并且形成小任務(wù)的過程中不時(shí)進(jìn)行數(shù)據(jù)傳輸之后計(jì)算,而是將計(jì)算方法(通常是計(jì)算函數(shù)——映射并化簡)作用到這些數(shù)據(jù)塊最終得到結(jié)果。

3.2 大數(shù)據(jù)技術(shù)模型

大數(shù)據(jù)的技術(shù)模型目前主要研究的是圖1的模型。

圖1是一種描述復(fù)雜關(guān)系的數(shù)據(jù)結(jié)構(gòu),它并不像線性鏈表和樹那樣看上去結(jié)構(gòu)簡單和清晰,但它能描述一些更為錯(cuò)綜復(fù)雜的層次和關(guān)系。對實(shí)際關(guān)系的描述使用范圍和頻率都更多更廣。采用一些數(shù)學(xué)方法和算法工具來對圖進(jìn)行處理,是處理大數(shù)據(jù)的一個(gè)前提。存儲(chǔ)圖結(jié)構(gòu)數(shù)據(jù)的時(shí)候一般選用鄰接矩陣或鄰接表的方式來進(jìn)行,這在數(shù)據(jù)結(jié)構(gòu)這門學(xué)科里面已經(jīng)有所研究。圖的兩個(gè)頂點(diǎn)之間用邊進(jìn)行連接,這個(gè)可以看作網(wǎng)絡(luò)結(jié)構(gòu)里面,相鄰兩個(gè)節(jié)點(diǎn)之間有傳輸消息的通路。一個(gè)復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)對應(yīng)出來的也是復(fù)雜的圖結(jié)構(gòu),處理的時(shí)候需要將該圖進(jìn)行分割處理,采用分而治之的辦法來解決問題。

如果節(jié)點(diǎn)A和B之間的所有通路都被C阻塞了,就意味著C有向分割了A和B,即A和B在給定條件C時(shí)獨(dú)立。

這種方法就降低了條件限制的復(fù)雜性,有效地將問題利用數(shù)學(xué)模型求解出來。

3.3 大數(shù)據(jù)處理系統(tǒng)應(yīng)用

開源是現(xiàn)在很多大型國際IT公司倡導(dǎo)的服務(wù)方式,這個(gè)理念擁有很多擁護(hù)者。雖然它最初的出現(xiàn)和商業(yè)搭不上邊,但已為具有現(xiàn)展理念的國際大型商業(yè)IT公司所接受,他們所認(rèn)同的是面向服務(wù)的開源,進(jìn)而出現(xiàn)了新的經(jīng)濟(jì)增長方式。

目前有一些較為前沿的公司已經(jīng)研發(fā)開源的大數(shù)據(jù)處理技術(shù),比較典型的是推特研發(fā)的Storm系統(tǒng)和谷歌研發(fā)的MapReduce模型。前者是以數(shù)據(jù)流方式進(jìn)行數(shù)據(jù)處理而后者是采用批量數(shù)據(jù)的處理方式。

MapReduce是目前用得比較多的方法,其核心思想就是兩個(gè)步驟:Map和Reduce。Map過程就是一個(gè)映射過程,完成這一步之后再對其進(jìn)行Reduce過程處理,也即是精簡的過程。最后將處理的最終結(jié)果進(jìn)行輸出。

3.4 大數(shù)據(jù)技術(shù)發(fā)展趨勢

傳統(tǒng)的關(guān)系型數(shù)據(jù)庫和新興的數(shù)據(jù)處理技術(shù)目前是并存狀態(tài),它們之間將來會(huì)相互學(xué)習(xí),相互滲透,相互影響,互相融合,最終形成對數(shù)據(jù)分析有利的格局,能夠更好地為大數(shù)據(jù)處理服務(wù),從龐大巨量的數(shù)據(jù)當(dāng)中找到需要的數(shù)據(jù)并對之進(jìn)行處理、分析乃至決策。

4 結(jié)束語

大數(shù)據(jù)是當(dāng)今越來越多的數(shù)據(jù)源每分每秒不斷產(chǎn)生新數(shù)據(jù)后的一個(gè)產(chǎn)物,對他它的研究和利用是緊迫的事情。目前研究的一些大數(shù)據(jù)技術(shù)都有其優(yōu)缺點(diǎn),技術(shù)種類也不是很多,還處于一個(gè)上升的階段。研究大數(shù)據(jù)的處理、分析、利用技術(shù)和方法,對今后這一分支的發(fā)展起到關(guān)鍵性的作用,對后來的科技產(chǎn)品乃至我們的日常生活都會(huì)帶來巨大的影響。

參考文獻(xiàn):

[1] Grobelink M.Big-data computing: Creating revolutionary breakthroughs in commerce, science, and society[R/OL].2012.10.02. http:///eswc2012_grobelink_big_data/

[2] 戎翔,李玲娟.基于MapReduce的頻繁項(xiàng)集挖掘方法[J].西安郵電學(xué)院學(xué)報(bào),2011(4).

篇5

“大數(shù)據(jù)”的生產(chǎn)與運(yùn)用是一個(gè)“人人為我,我為人人”的互通、共享、多贏過程。檢察機(jī)關(guān)在整合應(yīng)用其他政府機(jī)構(gòu)、企事業(yè)單位、社會(huì)組織提供的信息數(shù)據(jù)服務(wù)司法辦案的同時(shí),也在辦案中生產(chǎn)“大數(shù)據(jù)”。這些數(shù)據(jù)既可作為檢察機(jī)關(guān)校準(zhǔn)后續(xù)辦案的內(nèi)部參照系,同時(shí)部分?jǐn)?shù)據(jù)亦可對外輸出服務(wù)社會(huì)。前者如在刑事檢察中整合同類案件形成案例數(shù)據(jù)庫,用以提升公訴量刑精準(zhǔn)度,后者以當(dāng)前檢察機(jī)關(guān)向社會(huì)公眾提供的行賄犯罪檔案查詢服務(wù)最為典型。顯然作為數(shù)據(jù)運(yùn)用者,檢察機(jī)關(guān)“大數(shù)據(jù)”包括檢察工作所涉及的一切有用信息數(shù)據(jù)。其中,相當(dāng)一部分?jǐn)?shù)據(jù)并非檢察機(jī)關(guān)在司法辦案中產(chǎn)出的“原生”數(shù)據(jù)。如職務(wù)犯罪偵查辦案中反貪部門調(diào)用房產(chǎn)、銀行、公安行政機(jī)關(guān)的信息數(shù)據(jù)庫進(jìn)行初查;相關(guān)業(yè)務(wù)部門在審查、出庭公訴、訴訟監(jiān)督、參與社會(huì)治理等方面運(yùn)用信息化、數(shù)字化新技術(shù)等。

“檢察大數(shù)據(jù)”與上述檢察機(jī)關(guān)運(yùn)用的“大數(shù)據(jù)”有本質(zhì)區(qū)別。“檢察大數(shù)據(jù)”專指檢察機(jī)關(guān)司法辦案大數(shù)據(jù),是檢察機(jī)關(guān)在司法辦案中的“原生”案件信息數(shù)據(jù),其最核心的特征是相關(guān)數(shù)據(jù)是關(guān)于檢察業(yè)務(wù)辦案的信息數(shù)據(jù)。目前,在檢察司法辦案大數(shù)據(jù)的擷取、管理、應(yīng)用方面,最高人民檢察院推進(jìn)的“統(tǒng)一業(yè)務(wù)應(yīng)用系統(tǒng)”是國家層面“檢察大數(shù)據(jù)”生成的最重要平臺(tái);同時(shí)各地檢察機(jī)關(guān)亦多有創(chuàng)新,如北京市人民檢察院開發(fā)應(yīng)用的“檢立方”系統(tǒng)、上海市閔行區(qū)人民檢察院試運(yùn)行的“檢察官執(zhí)法辦案全程監(jiān)控考核系統(tǒng)”、浦東新區(qū)人民檢察院試運(yùn)行的“綜合管理信息平臺(tái)一期”、湖北省人民檢察院研發(fā)的“互聯(lián)網(wǎng)檢務(wù)辦公室”,南京市鼓樓區(qū)人民檢察院研發(fā)的辦公辦案軟件“移動(dòng)檢務(wù)通”等。上述系統(tǒng)平臺(tái)通過案件管理部門案件受理信息輸入及辦案人員在辦案過程中的流程信息輸入,生成、存儲(chǔ)、管理與檢察機(jī)關(guān)司法辦案相關(guān)的各項(xiàng)信息數(shù)據(jù),并通過對大數(shù)據(jù)不同子系統(tǒng)數(shù)據(jù)的深度分析,進(jìn)而服務(wù)領(lǐng)導(dǎo)決策與司法辦案。

當(dāng)前檢察工作中的大數(shù)據(jù)運(yùn)用

無論是檢察機(jī)關(guān)的“原生”大數(shù)據(jù),還是第三方生成的關(guān)聯(lián)大數(shù)據(jù),在當(dāng)前的檢察辦案與司法管理工作中都有著極為廣闊的應(yīng)用前景。作為檢察機(jī)關(guān)大數(shù)據(jù)的核心內(nèi)容,“原生”大數(shù)據(jù)即“檢察大數(shù)據(jù)”,在輔助檢察辦案、服務(wù)司法管理中發(fā)揮著極為重要的作用。

在“檢察大數(shù)據(jù)”輔助檢察辦案方面,目前較為典型的如貴州省人民檢察機(jī)關(guān)的“大數(shù)據(jù)司法辦案輔助系統(tǒng)”。司法辦案輔助系統(tǒng)運(yùn)用“實(shí)體識(shí)別”“數(shù)學(xué)建模”等大數(shù)據(jù)技術(shù),通過繪制“犯罪構(gòu)成知識(shí)”圖譜,建立各罪名案件數(shù)學(xué)模型的司法辦案輔助系統(tǒng),為辦案提供案件信息智能采集、“要素―證據(jù)”智能關(guān)聯(lián)和風(fēng)險(xiǎn)預(yù)警、證據(jù)材料甄別,以及類案推送、量刑建議計(jì)算等智能化服務(wù)。目前,貴州省人民檢察機(jī)關(guān)的大數(shù)據(jù)司法辦案輔助系統(tǒng)已進(jìn)行了三次迭代升級,正在貴州全省4個(gè)市(州)院和31個(gè)基層院試點(diǎn)運(yùn)行。

在“檢察大數(shù)據(jù)”服務(wù)司法管理方面,上海市閔行區(qū)人民檢察院的檢察官執(zhí)法辦案全程監(jiān)控考核系統(tǒng)非常具有代表性。該院通過對各職能部門受理、立案(項(xiàng))、辦理的案件以及不依附于自偵、批捕、等主要辦案業(yè)務(wù)的,有完整流程、審查結(jié)論及相關(guān)法律文書的訴訟監(jiān)督、社會(huì)治理、維護(hù)穩(wěn)定、預(yù)防犯罪等檢察業(yè)務(wù)進(jìn)行梳理,對檢察建議、糾正違法等共性的檢察業(yè)務(wù)指標(biāo)進(jìn)行歸并,形成了較為規(guī)范的檢察機(jī)關(guān)司法辦案大數(shù)據(jù)目錄和工作指標(biāo)w系。通過對檢察官在執(zhí)法辦案中產(chǎn)生的“原生”大數(shù)據(jù)的深度挖掘和研判分析,將案件統(tǒng)計(jì)、質(zhì)量監(jiān)控、專題研判、績效分析有機(jī)融為一體,進(jìn)而使辦案監(jiān)督管理者能夠及時(shí)準(zhǔn)確找出檢察官在辦案中存在的司法不規(guī)范問題,有效強(qiáng)化對司法辦案的績效考評與內(nèi)部監(jiān)控。

除了重視對“原生”大數(shù)據(jù)的收集整理與挖掘應(yīng)用,如何發(fā)揮好“他山之石”的作用,在檢察辦案中運(yùn)用好第三方關(guān)聯(lián)大數(shù)據(jù),也是大數(shù)據(jù)技術(shù)與檢察辦案深度融合的重要內(nèi)容。除了上述在職務(wù)犯罪案件偵查中對房產(chǎn)、銀行、公安行政機(jī)關(guān)等提供的關(guān)聯(lián)數(shù)據(jù)的常規(guī)運(yùn)用外,當(dāng)前一些地方檢察機(jī)關(guān)正在進(jìn)行創(chuàng)新運(yùn)用第三方大數(shù)據(jù)方面的積極探索。如江蘇省無錫市錫山區(qū)人民檢察院對接社會(huì)治理公共服務(wù)管理平臺(tái)和民情APP,推出檢察民情APP的創(chuàng)新做法。自對接平臺(tái)以來,錫山區(qū)人民檢察院已查閱近6000條民情信息,從海量數(shù)據(jù)中了解掌握群眾訴求,立足檢察職能,從中發(fā)現(xiàn)老百姓對征地拆遷、環(huán)境保護(hù)、社會(huì)保障等方面的民生需求,聚焦群眾關(guān)注的熱點(diǎn)民生問題深入挖掘職務(wù)犯罪案件線索、訴訟監(jiān)督線索、執(zhí)行監(jiān)督線索及公益訴訟線索,使第三方大數(shù)據(jù)真正成為輔助檢察辦案,拓展監(jiān)督案源的新渠道。

短板

檢察大數(shù)據(jù)系統(tǒng)的提升點(diǎn)

篇6

大數(shù)據(jù)概念可以從四個(gè)維度去解,即三個(gè)V和一個(gè)C。三個(gè)V分別指的是數(shù)據(jù)量大(Volume)、數(shù)據(jù)種類多(Variety)和數(shù)據(jù)增長速度快(Velocity),最后一個(gè)C指的是處理、升級或利用大數(shù)據(jù)的分析手段比處理結(jié)構(gòu)化數(shù)據(jù)要復(fù)雜的多(Complexity)。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像Map-Reduce一樣的并行計(jì)算框架將復(fù)雜的計(jì)算任務(wù)分配到“云”中成百上千的節(jié)點(diǎn)。

1.2大數(shù)據(jù)與云計(jì)算

大數(shù)據(jù)本身就是一個(gè)問題集,云計(jì)算技術(shù)是目前解決大數(shù)據(jù)問題集最重要最有效的手段。云計(jì)算提供了基礎(chǔ)的架構(gòu)平臺(tái),大數(shù)據(jù)應(yīng)用在這個(gè)平臺(tái)上運(yùn)行。目前公認(rèn)為分析大數(shù)據(jù)集最有效手段的分布式處理技術(shù),也是云計(jì)算思想的一種具體體現(xiàn)。

云計(jì)算是分布式處理、并行處理和網(wǎng)格計(jì)算的發(fā)展,或者說是這些計(jì)算機(jī)科學(xué)概念的商業(yè)實(shí)現(xiàn)。云計(jì)算將網(wǎng)絡(luò)上分布的計(jì)算、存儲(chǔ)、服務(wù)構(gòu)件、網(wǎng)絡(luò)軟件等資源集中起來,基于資源虛擬化的方式,為用戶提供方便快捷的服務(wù), 實(shí)現(xiàn)了資源和計(jì)算的分布式共享和并行處理,能夠很好地應(yīng)對當(dāng)前互聯(lián)網(wǎng)數(shù)據(jù)量高速增長的勢頭。

1.3大數(shù)據(jù)與Hadoop

Hadoop是一個(gè)Apache的開源項(xiàng)目,主要面向存儲(chǔ)和處理成百上千TB直至PB級別的結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化的大數(shù)據(jù)。Hadoop提供的Map-Reduce能將大數(shù)據(jù)問題分解成多個(gè)子問題,并將它們分配到成百上千個(gè)處理節(jié)點(diǎn)之上,再將結(jié)果匯集到一個(gè)小數(shù)據(jù)集當(dāng)中,從而更容易分析得出最后的結(jié)果。

Hadoop項(xiàng)目包括三部分,分別是Hadoop Distributed File System(HDFS)、Map Reduce編程模型,以及Hadoop Common。Hadoop具備低廉的硬件成本、開源的軟件體系、較強(qiáng)的靈活性、允許用戶自己修改代碼等特點(diǎn),同時(shí)能支持海量數(shù)據(jù)的存儲(chǔ)和計(jì)算任務(wù)。這些特點(diǎn)讓Hadoop被公認(rèn)為是新一代的大數(shù)據(jù)處理平臺(tái)。 Hadoop同樣具備出色的大數(shù)據(jù)集處理能力,在獲取、存儲(chǔ)、管理和分析數(shù)據(jù)方面遠(yuǎn)遠(yuǎn)超越傳統(tǒng)的數(shù)據(jù)庫軟件工具。Hadoop經(jīng)常在構(gòu)建大數(shù)據(jù)解決方案時(shí)被用作基礎(chǔ)構(gòu)架軟件。

二、大數(shù)據(jù)技術(shù)綜述

大數(shù)據(jù)處理不僅僅是Hadoop,許多特定的數(shù)據(jù)應(yīng)用場景是需要實(shí)時(shí)分析和互動(dòng)反饋的,這時(shí)候就需要利用包括內(nèi)存檢索、流處理和實(shí)時(shí)計(jì)算等其他技術(shù)。而云計(jì)算的分布式存儲(chǔ)和計(jì)算架構(gòu)開啟了大數(shù)據(jù)技術(shù)研究的大門,打造健全的大數(shù)據(jù)生態(tài)環(huán)境,所有這些技術(shù)結(jié)合在一起,才是一個(gè)完整的大數(shù)據(jù)處理系統(tǒng)。

2.1分布式計(jì)算框架

MapReduce是Google開發(fā)的一種簡化的分布式編程模型和高效的任務(wù)調(diào)度模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算,使云計(jì)算環(huán)境下的編程變得十分簡單。

MapReduce將數(shù)據(jù)處理任務(wù)抽象為一系列的Map(映射)和Reduce(化簡)操作對。Map主要完成數(shù)據(jù)的分解操作,Reduce主要完成數(shù)據(jù)的聚集操作.輸入輸出數(shù)據(jù)均以〈key,value〉格式存儲(chǔ).用戶在使用該編程模型時(shí),只需按照自己熟悉的語言實(shí)現(xiàn)Map函數(shù)和Reduce函數(shù)即可,MapReduce算法框架會(huì)自動(dòng)對任務(wù)進(jìn)行劃分以做到并行執(zhí)行。

Pregel是Google 提出的迭代處理計(jì)算框架,它具有高效、可擴(kuò)展和容錯(cuò)的特性,并隱藏了分布式相關(guān)的細(xì)節(jié),展現(xiàn)給人們的僅僅是一個(gè)表現(xiàn)力很強(qiáng)、很容易編程的大型圖算法處理的計(jì)算框架。Pregel的主要應(yīng)用場景是大型的圖計(jì)算,例如交通線路、疾病爆發(fā)路徑、WEB 搜索等相關(guān)領(lǐng)域。

2.2分布式文件系統(tǒng)

為保證高可用、高可靠和經(jīng)濟(jì)性,基于云計(jì)算的大數(shù)據(jù)處理系統(tǒng)采用分布式存儲(chǔ)的方式來保存數(shù)據(jù),用冗余存儲(chǔ)的方式保證數(shù)據(jù)的可靠性。目前廣泛使用的分布式文件系統(tǒng)是Google的GFS和Hadoop團(tuán)隊(duì)開發(fā)的GFS的開源實(shí)現(xiàn)HDFS。

GFS即Google文件系統(tǒng),是一個(gè)可擴(kuò)展的分布式文件系統(tǒng),用于大型的、分布式的、對大量數(shù)據(jù)進(jìn)行訪問的應(yīng)用。GFS的設(shè)計(jì)思想不同于傳統(tǒng)的文件系統(tǒng),是針對大規(guī)模數(shù)據(jù)處理和Google應(yīng)用特性而設(shè)計(jì)的,運(yùn)行成本低廉,并提供容錯(cuò)功能。

HDFS即Hadoop分布式文件系統(tǒng),受到GFS很大啟發(fā),具有高容錯(cuò)性,并且可以被部署在低價(jià)的硬件設(shè)備之上。HDFS很適合那些有大數(shù)據(jù)集的應(yīng)用,并且提供了數(shù)據(jù)讀寫的高吞吐率。HDFS是一個(gè)master/slave的結(jié)構(gòu),在master上只運(yùn)行一個(gè)Namenode,而在每一個(gè)slave上運(yùn)行一個(gè)Datanode。HDFS支持傳統(tǒng)的層次文件組織結(jié)構(gòu),對文件系統(tǒng)的操作(如建立、刪除文件和文件夾)都是通過Namenode來控制,Datanode用來存放數(shù)據(jù)塊。

2.3大數(shù)據(jù)管理技術(shù)

互聯(lián)網(wǎng)數(shù)據(jù)已超出關(guān)系型數(shù)據(jù)庫的管理范疇,電子郵件、超文本、博客、標(biāo)簽(Tag)以及圖片、音視頻等各種非結(jié)構(gòu)化數(shù)據(jù)逐漸成為大數(shù)據(jù)的重要組成部分,而面向結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的關(guān)系型數(shù)據(jù)庫已經(jīng)不能滿足數(shù)據(jù)快速訪問、大規(guī)模數(shù)據(jù)分析的需求,隨之而來,一系列新型的大數(shù)據(jù)管理技術(shù)和工具應(yīng)運(yùn)而生。

2.3.1 非關(guān)系型數(shù)據(jù)庫

NoSQL,也有人理解為Not Only SQL,它是一類非關(guān)系型數(shù)據(jù)庫的統(tǒng)稱。其特點(diǎn)是:沒有固定的數(shù)據(jù)表模式、可以分布式和水平擴(kuò)展。NoSQL并不是單純的反對關(guān)系型數(shù)據(jù)庫,而是針對其缺點(diǎn)的一種補(bǔ)充和擴(kuò)展。典型的NoSQL數(shù)據(jù)存儲(chǔ)模型有文檔存儲(chǔ)、鍵-值存儲(chǔ)、圖存儲(chǔ)、對象數(shù)據(jù)、列存儲(chǔ)等。而比較流行的,不得不提到Google的Bigtable,它把所有數(shù)據(jù)都作為對象來處理,形成一個(gè)巨大的表格,用來分布存儲(chǔ)大規(guī)模結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)量可達(dá)PB級。而HBase是Hadoop團(tuán)隊(duì)基于Bigtable的開源實(shí)現(xiàn),使用HDFS作為其文件存儲(chǔ)系統(tǒng)。同時(shí),Cassandra(K/V型數(shù)據(jù)庫)、MongoDB(文檔數(shù)據(jù)庫)和Redis等一系列優(yōu)秀的非關(guān)系型數(shù)據(jù)庫產(chǎn)品如雨后春筍般問世。

2.3.2 數(shù)據(jù)查詢工具

Hive是Facebook提出的基于Hadoop的大型數(shù)據(jù)倉庫,其目標(biāo)是簡化Hadoop上的數(shù)據(jù)聚集、即席查詢及大數(shù)據(jù)集的分析等操作,以減輕程序員的負(fù)擔(dān).它借鑒關(guān)系數(shù)據(jù)庫的模式管理、SQL接口等技術(shù),把結(jié)構(gòu)化的數(shù)據(jù)文件映射為數(shù)據(jù)庫表,提供類似于SQL的描述性語言HiveQL供程序員使用,可自動(dòng)將HiveQL語句解析成一優(yōu)化的MapReduce任務(wù)執(zhí)行序列.此外,它也支持用戶自定義的MapReduce函數(shù)。

PigLatin是Yahoo!提出的類似于Hive的大數(shù)據(jù)集分析平臺(tái).兩者的區(qū)別主要在于語言接口.Hive提供了類似SQL的接口,PigLatin提供的是一種基于操作符的數(shù)據(jù)流式的接口.可以說Pig利用操作符來對Hadoop進(jìn)行封裝,Hive利用SQL進(jìn)行封裝。

Google Dremel是個(gè)可擴(kuò)展的、交互式的即時(shí)查詢系統(tǒng),用于完成大規(guī)模查詢結(jié)構(gòu)化數(shù)據(jù)集(如日志和事件文件)。它支持類SQL語法,區(qū)別在于它只能查詢,不支持修改或者創(chuàng)建功能,也沒有表索引。數(shù)據(jù)被列式存儲(chǔ),這樣有助于提升查詢的速度。Google將Dremel作為MapReduce的一種補(bǔ)充,被用于分析MapReduce的結(jié)果或者是作為大規(guī)模計(jì)算的測試。

2.4實(shí)時(shí)流處理技術(shù)

伴隨著互聯(lián)網(wǎng)業(yè)務(wù)發(fā)展的步調(diào),以及業(yè)務(wù)流程的復(fù)雜化,企業(yè)的注意力越來越集中在“數(shù)據(jù)流”而非“數(shù)據(jù)集”上面,他們需要的是能夠處理隨時(shí)發(fā)生的數(shù)據(jù)流的架構(gòu),現(xiàn)有的分布式計(jì)算架構(gòu)并不適合數(shù)據(jù)流處理。流計(jì)算強(qiáng)調(diào)的是數(shù)據(jù)流的形式和實(shí)時(shí)性。MapReduce系統(tǒng)主要解決的是對靜態(tài)數(shù)據(jù)的批量處理,當(dāng)MapReduce任務(wù)啟動(dòng)時(shí),一般數(shù)據(jù)已經(jīng)到位了(比如保存到了分布式文件系統(tǒng)上),而流式計(jì)算系統(tǒng)在啟動(dòng)時(shí),一般數(shù)據(jù)并沒有完全到位,而是經(jīng)由外部數(shù)據(jù)源源不斷地流入,重視的是對數(shù)據(jù)處理的低延遲,希望進(jìn)入的數(shù)據(jù)越快處理越好。數(shù)據(jù)越快被處理,結(jié)果就越有價(jià)值,這也是實(shí)時(shí)處理的價(jià)值所在。

流計(jì)算的數(shù)據(jù)本身就是數(shù)據(jù)流,不需要數(shù)據(jù)準(zhǔn)備的時(shí)間,有數(shù)據(jù)流入就開始計(jì)算,解決了數(shù)據(jù)準(zhǔn)備和延遲的兩個(gè)問題。現(xiàn)有的解決方案中,Twitter的Storm和雅虎的S4框架更適合數(shù)據(jù)流計(jì)算的場景。Storm是開源的分布式實(shí)時(shí)計(jì)算系統(tǒng),可以可靠的處理流式數(shù)據(jù)并進(jìn)行實(shí)時(shí)計(jì)算,單機(jī)性能可達(dá)到百萬記錄每秒,開發(fā)語言為Clojure和Java,并具備容錯(cuò)特性。S4是面向流式數(shù)據(jù)和實(shí)時(shí)處理的,所以針對實(shí)時(shí)性較高的業(yè)務(wù),可以很好地對數(shù)據(jù)做出高效的分析處理,而且系統(tǒng)一旦上線,很少需要人工干預(yù),源源不斷的數(shù)據(jù)流會(huì)被自動(dòng)路由并分析。對于海量數(shù)據(jù),它和MapReduce都可以應(yīng)對,但它能比后者更快地處理數(shù)據(jù)。

三、思考與展望

以云計(jì)算為基礎(chǔ)的信息存儲(chǔ)、分享和挖掘手段為知識(shí)生產(chǎn)提供了工具,通過對大數(shù)據(jù)分析、預(yù)測會(huì)使得決策更為精準(zhǔn),這對媒體融合具有重要意義。

篇7

20世紀(jì)80年代,計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)的發(fā)展使得數(shù)據(jù)量飛速增長,大數(shù)據(jù)是互聯(lián)網(wǎng)技術(shù)發(fā)展到一定程度后必然出現(xiàn)的一種現(xiàn)象。

1數(shù)據(jù)挖掘的概念及功能

1.1 數(shù)據(jù)挖掘概念

數(shù)據(jù)挖掘是從大量的隨機(jī)、模糊并帶有噪聲的數(shù)據(jù)集合中通過采用一定的算法對信息進(jìn)行提取,發(fā)現(xiàn)規(guī)律和有用的價(jià)值信息的過程。一個(gè)完整的數(shù)據(jù)庫挖掘系統(tǒng)主要包括了:數(shù)據(jù)庫、數(shù)據(jù)庫服務(wù)器、知識(shí)庫、數(shù)據(jù)庫挖掘引擎、模式評估模塊、可視化用戶界面。

1.2 數(shù)據(jù)挖掘方法和步驟

數(shù)據(jù)庫挖掘的主要方法有基于遺傳算法,粗集方法,決策樹方法和神經(jīng)網(wǎng)絡(luò)方法。數(shù)據(jù)挖掘的一般步驟為:分析問題,判定源數(shù)據(jù)庫是否滿足數(shù)據(jù)挖掘的標(biāo)準(zhǔn);提取、清洗和校驗(yàn)數(shù)據(jù),去除數(shù)據(jù)中的噪聲,得到數(shù)據(jù)完整、格式統(tǒng)一的數(shù)據(jù);創(chuàng)建和調(diào)試模型,將選用的數(shù)據(jù)挖掘算法應(yīng)用到數(shù)據(jù)中創(chuàng)建模型,通過數(shù)據(jù)來對模型進(jìn)行校驗(yàn)和調(diào)整,得到滿足使用要求的數(shù)據(jù)模型;維護(hù)數(shù)據(jù)挖掘模型,隨著數(shù)據(jù)量的增加,需要對模型進(jìn)行調(diào)整和維護(hù),一些關(guān)鍵信息的改變有可能嚴(yán)重模型的精度,模型維護(hù)是數(shù)據(jù)挖掘的重要環(huán)節(jié),通過模型維護(hù)可以保持模型的活力,不斷完善模型。

1.3 數(shù)據(jù)挖掘的主要功能

數(shù)據(jù)挖掘的功能主要可以分為五大類:自動(dòng)預(yù)測趨勢和行為,關(guān)聯(lián)分析,聚類分析,概念描述,偏差檢測。采用數(shù)據(jù)挖掘技術(shù)在大型的數(shù)據(jù)庫中尋找預(yù)測性信息,市場預(yù)測就是數(shù)據(jù)挖掘技術(shù)在自動(dòng)預(yù)測趨勢和行為方面的典型應(yīng)用;關(guān)聯(lián)分析是采用數(shù)據(jù)挖掘技術(shù)研究數(shù)據(jù)空中自變量和因變量之間的某種規(guī)律,找出數(shù)據(jù)庫中存在的隱藏的關(guān)聯(lián)網(wǎng);聚類分析通過數(shù)據(jù)挖掘定義具有共同特征的子集,增強(qiáng)人們對于客觀事實(shí)的理解和認(rèn)識(shí),數(shù)據(jù)挖掘技術(shù)避免了傳統(tǒng)的模式識(shí)別和數(shù)學(xué)分類方法的片面性,是一個(gè)更加先進(jìn)的聚類分析方法;概念描述建立在聚類分析的基礎(chǔ)上,提取對象的特征,形成對概念的描述;偏差檢測,數(shù)據(jù)庫中的數(shù)據(jù)很可能存在著異常記錄或者是數(shù)據(jù)噪聲,通過偏差檢測提出異常數(shù)據(jù)。

2數(shù)據(jù)挖掘技術(shù)的應(yīng)用

數(shù)據(jù)挖掘技術(shù)已經(jīng)應(yīng)用在了各個(gè)行業(yè)中,數(shù)據(jù)量巨大的互聯(lián)網(wǎng)行業(yè)、天文學(xué)、氣象學(xué)、生物技術(shù),以及醫(yī)療保健、銀行、金融、零售等行業(yè)。通過數(shù)據(jù)挖掘技術(shù)將大數(shù)據(jù)融合在各種社會(huì)應(yīng)用中,數(shù)據(jù)挖掘的結(jié)果參與到政府、企業(yè)、個(gè)人的決策中,發(fā)揮數(shù)據(jù)挖掘的社會(huì)價(jià)值,改變?nèi)藗兊纳罘绞剑畲蠡瘮?shù)據(jù)挖掘的積極作用。以互聯(lián)網(wǎng)行業(yè)為例,探究數(shù)據(jù)挖掘技術(shù)在社交網(wǎng)絡(luò)中的應(yīng)用。

互聯(lián)網(wǎng)時(shí)代的信息爆炸給互聯(lián)網(wǎng)用戶的使用需求帶來了一定的不便,用戶如何快速獲取有用信息,網(wǎng)站如何快速定位用戶需求成為了研究課題。以社交網(wǎng)絡(luò)為例,社區(qū)中的視頻、音頻、圖片、文字等信息各式各樣,每個(gè)人的興趣、習(xí)慣不同,要得到的內(nèi)容也不同。采用數(shù)據(jù)挖掘技術(shù)對社交網(wǎng)絡(luò)數(shù)據(jù)分析,通過細(xì)分用戶,挖掘不同用戶的需求,開出出符合不同用戶個(gè)性特征的服務(wù)和產(chǎn)品,滿足WEB2.0時(shí)代對于網(wǎng)絡(luò)個(gè)性化智能化的要求。

數(shù)據(jù)的采集和預(yù)處理是數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)的前提,數(shù)據(jù)的預(yù)處理內(nèi)容主要包括數(shù)據(jù)收集與錄入、數(shù)據(jù)清洗與凈化、用戶識(shí)別、會(huì)話識(shí)別、文本提取。數(shù)據(jù)收集與預(yù)處理的系統(tǒng)結(jié)構(gòu)圖如圖1所示。采集的數(shù)據(jù)一般會(huì)存放在數(shù)據(jù)庫中,數(shù)據(jù)庫中的數(shù)據(jù)具有組織性、結(jié)構(gòu)性、易存取的特點(diǎn),數(shù)據(jù)為了達(dá)到數(shù)據(jù)挖掘的要求還需要進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)簡化。

數(shù)據(jù)挖掘器的設(shè)計(jì)目的是對文本數(shù)據(jù)的內(nèi)容進(jìn)行分析與挖掘,提取能夠代表和概括整個(gè)文本內(nèi)容的標(biāo)簽。文本挖掘的步驟包括識(shí)別中文詞,去除停用詞,檢測短語,檢查同義詞,創(chuàng)建單詞向量。中文中字、句、段之間都有間隔,只有詞之間沒有,本文采用機(jī)械分詞法進(jìn)行識(shí)別處理,通過掃面句中字符串,將其余詞典詞語進(jìn)行匹配,識(shí)別出詞匯。去除停用詞是將文本中常用的詞匯去除,這些詞匯在文本數(shù)據(jù)挖掘中屬于無用詞匯,去除后能夠減小數(shù)據(jù)處理的復(fù)雜程度。檢測短語和檢測同義詞的方法類似,都是通過類來實(shí)現(xiàn),檢測短語通過類PhrasesCache實(shí)現(xiàn),檢測同義詞通過類SynonymousCache實(shí)現(xiàn),通過詞匯和記號(hào)詞的匹配實(shí)現(xiàn)短語和同義詞的識(shí)別。構(gòu)建單詞向量,通過單詞向量來表示一個(gè)項(xiàng)目,單詞向量是通過文本單詞及其權(quán)重來構(gòu)成的,通過單詞檢索可以得到用戶想要獲得的文檔和信息。

3結(jié)語

本文主要分析了大數(shù)據(jù)的含義和特點(diǎn),數(shù)據(jù)挖掘的概念和主要功能,著重探究了數(shù)據(jù)挖掘技術(shù)的主要應(yīng)用,并結(jié)合數(shù)據(jù)挖掘技術(shù)在互聯(lián)網(wǎng)社交網(wǎng)絡(luò)中的應(yīng)用進(jìn)行了實(shí)例分析,通過數(shù)據(jù)挖掘技術(shù)更好的匹配用戶想要得到的信息。

參考文獻(xiàn)

[1]郭春.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測關(guān)鍵技術(shù)研究[D].北京郵電大學(xué),2014.

篇8

1 大數(shù)據(jù)的現(xiàn)狀

據(jù)權(quán)威數(shù)據(jù)顯示,大數(shù)據(jù)應(yīng)用在我國還處在起步階段。但在未來三年,通信、金融領(lǐng)域?qū)⒃诖髷?shù)據(jù)市場突破100億元。市場規(guī)模在2012年有望達(dá)到4.7億元,到2013年增至11.2億元,增長率高達(dá)138%,2014年,保持了與2013年基本持平的增速,增長率為114.38%,市場規(guī)模達(dá)到24.1億元,未來三年內(nèi)有望突破150億元,2016年有望達(dá)到180億規(guī)模。自從2014年以來,各界對大數(shù)據(jù)的誕生都備加關(guān)注,已滲透到各個(gè)領(lǐng)域:交通行業(yè)、醫(yī)療行業(yè)、生物技術(shù)、零售行業(yè)、電商、農(nóng)牧業(yè)、個(gè)人位置服務(wù)等行業(yè),由此也正在不斷涌現(xiàn)大數(shù)據(jù)的新產(chǎn)品、新技術(shù)、新服務(wù)。

大數(shù)據(jù)行業(yè)“十三五”規(guī)劃主要目標(biāo):在2020年,將大數(shù)據(jù)打造成為國民經(jīng)濟(jì)新興支柱產(chǎn)業(yè)并在社會(huì)各領(lǐng)域廣泛應(yīng)用,推動(dòng)我國大數(shù)據(jù)產(chǎn)業(yè)穩(wěn)步快速發(fā)展,基本健全大數(shù)據(jù)產(chǎn)業(yè)體系,推動(dòng)制定一批相關(guān)大數(shù)據(jù)的國標(biāo)、行標(biāo)和地方標(biāo)準(zhǔn),引進(jìn)具備大數(shù)據(jù)條件的企業(yè),建設(shè)大數(shù)據(jù)產(chǎn)業(yè)孵化基地,提高全國信息化總體水平,以躋身世界先進(jìn)水平。

2 大數(shù)據(jù)的概述

2.1 大數(shù)據(jù)定義

大數(shù)據(jù)即巨量數(shù)據(jù)集合,目前還沒有一個(gè)統(tǒng)一的定義。大數(shù)據(jù)的概念最早是由全球著名的管理咨詢公司麥肯錫提出,2011年Mckinsey研究稱,大數(shù)據(jù)通常是指信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),在各個(gè)行業(yè)和業(yè)務(wù)領(lǐng)域,數(shù)據(jù)已經(jīng)滲透到行業(yè)中并逐漸成為重要的要素,人們能夠從海量數(shù)據(jù)中挖掘出有用的數(shù)據(jù)并加以應(yīng)用。對大數(shù)據(jù)定義的另一說法是利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時(shí)間超過可容忍時(shí)間的數(shù)據(jù)集。

隨著信息時(shí)代的高速發(fā)展,大數(shù)據(jù)已經(jīng)成為社會(huì)生產(chǎn)力發(fā)展的又一推動(dòng)力。大數(shù)據(jù)被稱為是繼云計(jì)算、物聯(lián)網(wǎng)之后信息時(shí)代的又一大顛覆性的技術(shù)革命。大數(shù)據(jù)的數(shù)據(jù)量巨大,一般10TB規(guī)模左右,但在實(shí)際應(yīng)用中,多個(gè)數(shù)據(jù)集放在一起,已經(jīng)形成了PB級的數(shù)據(jù)量,甚至EB、ZB、TB的數(shù)據(jù)量。

2.2 大數(shù)據(jù)的特點(diǎn)

2.2.1 數(shù)據(jù)量巨大

數(shù)據(jù)量級別從TB級別躍升到PB級別。隨著可穿戴設(shè)備、物聯(lián)網(wǎng)和云計(jì)算、云存儲(chǔ)等技術(shù)的發(fā)展,用戶的每一個(gè)動(dòng)作都可以被記錄,由此每天產(chǎn)生大量的數(shù)據(jù)信息。據(jù)有關(guān)人士估算:1986~2007年,全球數(shù)據(jù)的存儲(chǔ)能力每年提高23%,雙向通信能力每年提高28%,通用計(jì)算能力每年提高58%;2007年,人類大約存儲(chǔ)了超過300EB

的數(shù)據(jù);到2013年,世界上存儲(chǔ)的數(shù)據(jù)能達(dá)到約1.2ZB。

2.2.2 數(shù)據(jù)類型多樣化

即數(shù)據(jù)類型繁多,產(chǎn)生了海量的新數(shù)據(jù)集,新數(shù)據(jù)集可以是關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫數(shù)據(jù)這樣的結(jié)構(gòu)化數(shù)據(jù)到半結(jié)構(gòu)化數(shù)據(jù)和無結(jié)構(gòu)數(shù)據(jù),從靜態(tài)的數(shù)據(jù)庫到動(dòng)態(tài)的數(shù)據(jù)流,從簡單的數(shù)據(jù)對象到時(shí)間數(shù)據(jù)、生物序列數(shù)據(jù)、傳感器數(shù)據(jù)、空間數(shù)據(jù)、超文本數(shù)據(jù)、多媒體數(shù)據(jù)、軟件程序代碼、Web數(shù)據(jù)和社會(huì)網(wǎng)絡(luò)數(shù)據(jù)[1]。各種數(shù)據(jù)集不僅產(chǎn)生于組織內(nèi)部運(yùn)作的各個(gè)環(huán)節(jié),也來自于組織外部。

2.2.3 數(shù)據(jù)的時(shí)效性高

所謂的數(shù)據(jù)時(shí)效性高指以實(shí)時(shí)數(shù)據(jù)處理、實(shí)時(shí)結(jié)果導(dǎo)向?yàn)樘卣鞯慕鉀Q方案,數(shù)據(jù)的傳輸速度、響應(yīng)、反應(yīng)的速度不斷加快。數(shù)據(jù)時(shí)效性為了去偽存真,采用非結(jié)構(gòu)化數(shù)據(jù)剔除數(shù)據(jù)中無用的信息,而當(dāng)前未有真正的解決方法,只能是人工承擔(dān)其中的智能部分。有些專員負(fù)責(zé)數(shù)據(jù)分析問題并提出分析后的解決方案。

2.2.4 數(shù)據(jù)真實(shí)性低

即數(shù)據(jù)的質(zhì)量。數(shù)據(jù)的高質(zhì)量是大數(shù)據(jù)時(shí)代重要的關(guān)注點(diǎn)。但在生活中,“臟數(shù)據(jù)”無處不在,例如,一些低劣的偽冒產(chǎn)品被推上市場,由于營銷手段的成功,加之其他因素的影響導(dǎo)致評分很高。但是這并不是真實(shí)的數(shù)據(jù),如果對數(shù)據(jù)不加分析和鑒別而直接使用,即使計(jì)算的結(jié)果精度高,結(jié)果都是無意義的,因?yàn)閿?shù)據(jù)本身就存在問題出現(xiàn)。

2.2.5 價(jià)值密度低

指隨著物聯(lián)網(wǎng)的廣泛應(yīng)用,信息巨大,信息感知存在于客觀事物中,有很多不相關(guān)的信息。由于數(shù)據(jù)采集的不及時(shí),數(shù)據(jù)樣本不全面,數(shù)據(jù)可能不連續(xù)等等,數(shù)據(jù)可能會(huì)失真,但當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模,可以通過更多的數(shù)據(jù)達(dá)到更真實(shí)全面的反饋。

2.3 大數(shù)據(jù)的應(yīng)用

2.3.1 醫(yī)療大數(shù)據(jù)

利用大數(shù)據(jù)平臺(tái)收集患者原先就醫(yī)的病例和治療方案,根據(jù)患者的體征,建立疾病數(shù)據(jù)庫并對患者的病例分類數(shù)據(jù)庫。一旦患者在哪個(gè)醫(yī)院就醫(yī),憑著醫(yī)保卡或就診卡,醫(yī)生就可以從疾病數(shù)據(jù)庫中參考病人的疾病特征、所做的檢查報(bào)告結(jié)果快速幫助患者確診。同時(shí)擁有的數(shù)據(jù)也有利于醫(yī)藥行業(yè)開發(fā)出更符合治療疾病的醫(yī)療器械和藥物的研發(fā)。

2.3.2 傳統(tǒng)農(nóng)牧業(yè)大數(shù)據(jù)

因?yàn)閭鹘y(tǒng)農(nóng)牧業(yè)主要依賴于天氣、土壤、空氣質(zhì)量等客觀因素,因此利用大數(shù)據(jù)可以收集客觀因素的數(shù)據(jù)以及作物成熟度,甚至是設(shè)備和勞動(dòng)力的成本及可用性方面的實(shí)時(shí)數(shù)據(jù),能夠幫助農(nóng)民選擇正確的播種時(shí)間、施肥和收割作物的決策。當(dāng)農(nóng)民遇到技術(shù)市場問題可以請教專業(yè)人員,專業(yè)人員根據(jù)實(shí)時(shí)數(shù)據(jù)做出科學(xué)的指導(dǎo),制定合理的優(yōu)化決策,降低農(nóng)民的損失成本,提高產(chǎn)品的產(chǎn)量,從而為轉(zhuǎn)向規(guī)模化經(jīng)營打下良好基礎(chǔ)。

2.3.3 輿情大數(shù)據(jù)

利用大數(shù)據(jù)技術(shù)收集民眾訴求的數(shù)據(jù),降低社會(huì),有利管理犯罪行為。通過大數(shù)據(jù)收集在微博的尋找走失的親人或提供可能被拐賣人口的信息,來幫助別人。

3 智能交通的需求

隨著城市一體化的快速發(fā)展,新時(shí)代農(nóng)民工涌入大城市,促使城市人口的增大不斷給城市交通帶來問題。究其原因主要有:一是機(jī)動(dòng)車的迅猛發(fā)展導(dǎo)致城市主次干道的流量趨于飽和,大量機(jī)動(dòng)車的通行和停放占據(jù)主干道路。二是城市交通的道路基礎(chǔ)設(shè)施供給不平衡導(dǎo)致路網(wǎng)承擔(dān)能力差。三是停車泊位數(shù)量不足導(dǎo)致機(jī)動(dòng)車使用者不得不過多依賴道路停車。四是公共設(shè)施的公交車分擔(dān)率不高導(dǎo)致交通運(yùn)輸效率降低。五是城市的土地開發(fā)利用與道路交通發(fā)展不均衡。六是行人和機(jī)動(dòng)車主素質(zhì)不文明導(dǎo)致道路通行效率降低。為此,智能交通的出現(xiàn)是改善當(dāng)前城市交通的必要需求,能夠在一定程度上有效的解決城市交通問題。

大數(shù)據(jù)是如何在智能交通的應(yīng)用呢?可以從兩個(gè)方面說明:一是對交通運(yùn)行數(shù)據(jù)的收集。由于每天道路的通行機(jī)動(dòng)車較多,能夠產(chǎn)生較大的數(shù)據(jù),數(shù)據(jù)的采集并發(fā)數(shù)高,利用大數(shù)據(jù)使機(jī)動(dòng)車主更好的了解公路上的通行密度,有效合理對道路進(jìn)行規(guī)劃,可規(guī)定個(gè)別道路為單行線。其二是可以利用大數(shù)據(jù)來實(shí)現(xiàn)主干道根據(jù)道路的運(yùn)行狀況即時(shí)調(diào)度信號(hào)燈,提高已有線路運(yùn)行能力,可以保障交通參與者的生命和提高有關(guān)部門的工作效率,降低成本。對于機(jī)動(dòng)車主可以根據(jù)大數(shù)據(jù)隨時(shí)的了解當(dāng)前的交通狀況和停車位數(shù)量。如果交通擁堵,車主則可選擇另一路線,節(jié)約了車主的大量時(shí)間。

4 智能交通體系的建立

4.1 智能交通建立的框架

主要包括感知數(shù)據(jù)層、軟件應(yīng)用平臺(tái)及分析預(yù)測和優(yōu)化管理的應(yīng)用。物理感知層主要是采集交通的運(yùn)行狀況和對交通數(shù)據(jù)的及時(shí)感知;軟件應(yīng)用平臺(tái)主要整合每個(gè)感知終端的信息、將信息進(jìn)行轉(zhuǎn)換和處理,達(dá)到支撐分析并做出及時(shí)的預(yù)警措施。比如:對主要交通干進(jìn)行規(guī)劃,對頻發(fā)交通事故進(jìn)行監(jiān)控。同時(shí)還應(yīng)進(jìn)行應(yīng)用系統(tǒng)建設(shè)的優(yōu)化管理。比如:對機(jī)動(dòng)車進(jìn)行智能誘導(dǎo)、智能停車。

智能交通系統(tǒng)需要在各道路主干道上安裝高清攝像頭,采用先進(jìn)的視頻監(jiān)控、智能識(shí)別和信息技術(shù)手段,來增加可管理的維度,從空間的廣度、時(shí)間的深度、范圍的精細(xì)度來管理。整個(gè)系統(tǒng)的組成包括信息綜合應(yīng)用平臺(tái)、信號(hào)控制系統(tǒng)、視頻監(jiān)控系統(tǒng)、智能卡口系統(tǒng)、電子警察系統(tǒng)、信息采集系統(tǒng)、信息系統(tǒng)。每個(gè)城市建立智能交通并進(jìn)行聯(lián)網(wǎng),則會(huì)產(chǎn)生越來越多的視頻監(jiān)控?cái)?shù)據(jù)、卡口電警數(shù)據(jù)、路況信息、管控信息、營運(yùn)信息、GPS定位信息、射頻識(shí)別信息等數(shù)據(jù),每天產(chǎn)生的數(shù)據(jù)量將可以達(dá)到PB級別,并且呈現(xiàn)指數(shù)級的增長。

4.2 智能交通數(shù)據(jù)處理體系的構(gòu)成

主要包括交通的數(shù)據(jù)輸入、車輛信息、道路承載能力等的數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)檢索。其中交通數(shù)據(jù)輸入可以是靜態(tài)數(shù)據(jù)或者是動(dòng)態(tài)數(shù)據(jù)。數(shù)據(jù)處理是針對實(shí)時(shí)數(shù)據(jù)的處理。數(shù)據(jù)主要存儲(chǔ)的是每天采集的巨大數(shù)據(jù)量。為了從中獲取有用的數(shù)據(jù),則需要進(jìn)行數(shù)據(jù)查詢和檢索,還要對數(shù)據(jù)進(jìn)行規(guī)劃。

5 大數(shù)據(jù)技術(shù)

5.1 數(shù)據(jù)采集與預(yù)處理

數(shù)據(jù)采集與預(yù)處理主要對交通領(lǐng)域全業(yè)態(tài)數(shù)據(jù)的立體采集與處理來支撐交通建設(shè)、管理、運(yùn)行決策。采集的數(shù)據(jù)主要是車輛的實(shí)時(shí)通行數(shù)據(jù),以實(shí)現(xiàn)實(shí)時(shí)監(jiān)控、事先預(yù)測、及時(shí)預(yù)警,完成道路網(wǎng)流量的調(diào)配、控。這些數(shù)據(jù)獲取可以采用安裝的傳感器、識(shí)別技術(shù)并完成對已接收數(shù)據(jù)的辨析、轉(zhuǎn)換、抽取、清洗等操作。

5.2 數(shù)據(jù)存儲(chǔ)與管理

大數(shù)據(jù)的存儲(chǔ)與管理是把采集到的數(shù)據(jù)存放在存儲(chǔ)器,并建立相應(yīng)的數(shù)據(jù)庫,如關(guān)系數(shù)據(jù)庫、Not Only SQL即對關(guān)系型SQL數(shù)據(jù)系統(tǒng)的補(bǔ)充。利用數(shù)據(jù)庫采用更簡單的數(shù)據(jù)模型,并將元數(shù)據(jù)與應(yīng)用數(shù)據(jù)分離,從而實(shí)現(xiàn)管理和調(diào)用。

5.3 數(shù)據(jù)分析與挖掘

數(shù)據(jù)分析及挖掘技術(shù)是大數(shù)據(jù)的核心技術(shù)。從海量數(shù)據(jù)中,提取隱含在其中,人們事先未知的,但又可能有用的信息和知識(shí)的過程。從復(fù)雜數(shù)據(jù)類型中挖掘,如文本、圖片、視頻、音頻。該技術(shù)主要從數(shù)據(jù)中自動(dòng)地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu),可以預(yù)測模型、機(jī)器學(xué)習(xí)、建模仿真。從而實(shí)現(xiàn)一些高級別數(shù)據(jù)分析的需求。

5.4 數(shù)據(jù)展現(xiàn)與應(yīng)用

數(shù)據(jù)技術(shù)能夠?qū)⒚刻焖a(chǎn)生的大量數(shù)據(jù)從中挖掘出有用的數(shù)據(jù),應(yīng)用到各個(gè)領(lǐng)域有需要的地方以提高運(yùn)行效率。

6 結(jié)束語

大數(shù)據(jù)時(shí)代,能對智能交通信息資源進(jìn)行優(yōu)化配置,能夠改善傳統(tǒng)的交通問題。對非機(jī)動(dòng)車主而言,利用大數(shù)據(jù)可以更好的規(guī)劃線路,更好的了解交通狀況,在一定程度上可以對問題預(yù)先提出解決方案,起到節(jié)省大量時(shí)間、額外的開支。同時(shí)對交管部門而言,能夠在限的警力情況下合理配置人員資源和交通設(shè)備,主干道路在高峰期出現(xiàn)的問題能夠合理利用大數(shù)據(jù)信息配置資源,在刑事案件偵查中也能發(fā)揮更重要的作用。

篇9

1.大數(shù)據(jù)產(chǎn)生的背景

大數(shù)據(jù)(Big Data),也稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的資訊,通常被認(rèn)為是PB或EB或更高數(shù)量級的數(shù)據(jù)。

互聯(lián)網(wǎng)絡(luò)從上世紀(jì)90年代開始,發(fā)展迅速,加快了信息傳播和共享的速度,尤其是一些社交網(wǎng)站的興起,數(shù)據(jù)量更是以前所未有的速度暴增,文字資料、聲音、視頻、圖像等多媒體數(shù)據(jù)鋪天蓋地。據(jù)資料顯示,上世紀(jì)90年代,互聯(lián)網(wǎng)資源不是很豐富的時(shí)代,網(wǎng)民月平均流量1MB左右,之后則快速增長,2000年后,逐漸發(fā)展為每月10MB、100MB、1GB,據(jù)估計(jì)2014年可能會(huì)達(dá)到10GB。淘寶網(wǎng)每日幾千萬筆交易,單日數(shù)據(jù)量達(dá)幾十TB,數(shù)據(jù)存儲(chǔ)量幾十PB,百度公司目前數(shù)據(jù)總量接近1000PB,存儲(chǔ)網(wǎng)頁數(shù)量接近1萬億頁,每天大約要處理60億次搜索請求,幾十PB數(shù)據(jù)。

隨著技術(shù)發(fā)展,大數(shù)據(jù)廣泛存在,如企業(yè)數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)、科學(xué)數(shù)據(jù)、醫(yī)療數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、移動(dòng)數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)等等。總之,大數(shù)據(jù)存在于各行各業(yè),一個(gè)大數(shù)據(jù)的時(shí)代已經(jīng)到來。

2.大數(shù)據(jù)時(shí)代的挑戰(zhàn)

大數(shù)據(jù)特點(diǎn)是容量在增長、種類在增長、速度也在增長,面臨如此龐大的數(shù)據(jù)量,數(shù)據(jù)的存儲(chǔ)和檢索面臨著巨大挑戰(zhàn)。比如2007年時(shí),F(xiàn)acebook使用數(shù)據(jù)倉庫存儲(chǔ)15個(gè)TB的數(shù)據(jù),但到了2010年,每天壓縮過的數(shù)據(jù)比過去總和還多,那時(shí)商業(yè)并行數(shù)據(jù)庫很少有超過100個(gè)節(jié)點(diǎn)以上的,而現(xiàn)在雅虎的Hadoop集群超過4000個(gè)節(jié)點(diǎn),F(xiàn)acebook倉庫節(jié)點(diǎn)超過2700個(gè)。大量的數(shù)據(jù)現(xiàn)在已經(jīng)開始影響我們整個(gè)的工作、生活、甚至經(jīng)濟(jì),如何存儲(chǔ)和高效利用這些數(shù)據(jù)是需要我們解決的。

二、關(guān)系數(shù)據(jù)庫

1.關(guān)系數(shù)據(jù)庫概述

關(guān)系型數(shù)據(jù)庫是支持關(guān)系模型的數(shù)據(jù)庫系統(tǒng),他是目前各類數(shù)據(jù)庫中最重要,也是使用最廣泛的數(shù)據(jù)庫系統(tǒng)。關(guān)系型數(shù)據(jù)庫從上世紀(jì)70年代誕生到現(xiàn)在經(jīng)過幾十年的發(fā)展,已經(jīng)非常成熟,目前市場上主流的數(shù)據(jù)庫都為關(guān)系型數(shù)據(jù)庫,比較知名的有Oracle數(shù)據(jù)庫、DB2、Sybase、SQL Server等等。

2.關(guān)系數(shù)據(jù)庫優(yōu)勢

關(guān)系數(shù)據(jù)庫相比其他模型的數(shù)據(jù)庫而言,有著以下優(yōu)點(diǎn):

模型容易理解:關(guān)系模型中的二維表結(jié)構(gòu)非常貼近邏輯世界,相對于網(wǎng)狀、層次等其他模型來說更容易理解。

使用方便:通用的SQL語言使得操作關(guān)系型數(shù)據(jù)庫非常方便,只需使用SQL語言在邏輯層面操作數(shù)據(jù)庫,而完全不必理解其底層實(shí)現(xiàn)。

易于維護(hù):豐富的完整性大大降低了數(shù)據(jù)冗余和數(shù)據(jù)不一致的概率。

3.關(guān)系數(shù)據(jù)庫存在問題

傳統(tǒng)的關(guān)系數(shù)據(jù)庫具有不錯(cuò)的性能,穩(wěn)定性高,歷經(jīng)多年發(fā)展已日臻成熟,而且使用簡單,功能強(qiáng)大,也積累了大量的成功案例。上世紀(jì)90年代的互聯(lián)網(wǎng)領(lǐng)域,網(wǎng)站基本都是靜態(tài)網(wǎng)頁,主要以文字為主,訪問量也不大,當(dāng)時(shí)用單個(gè)數(shù)據(jù)庫完全可以應(yīng)對。可近幾年,動(dòng)態(tài)網(wǎng)站隨處可見,各種論壇、博克、微博異常火爆,在大幅度提升交流方式的同時(shí),用戶數(shù)據(jù)量迅速增長,處理事務(wù)性的數(shù)據(jù)關(guān)系數(shù)據(jù)庫得心應(yīng)手,可面對互聯(lián)網(wǎng)的高并發(fā)、大數(shù)據(jù)量關(guān)系數(shù)據(jù)庫顯得力不從心,暴露了很多難以克服的問題:

數(shù)據(jù)庫高并發(fā)讀寫:高并發(fā)的動(dòng)態(tài)網(wǎng)站數(shù)據(jù)庫并發(fā)負(fù)載非常高,往往要達(dá)到每秒上萬次甚至百萬次、千萬次的讀寫請求。關(guān)系數(shù)據(jù)庫應(yīng)付上萬次SQL查詢沒問題,但是應(yīng)付上百萬、千萬次SQL數(shù)據(jù)請求,硬盤IO就已經(jīng)無法承受了。

海量數(shù)據(jù)的高效率訪問:一般大型數(shù)據(jù)庫在百萬級的數(shù)據(jù)庫表中檢索數(shù)據(jù)可達(dá)到秒級,但面對數(shù)億條記錄的數(shù)據(jù)庫表,檢索速度效率是極其低下,難以忍受的。

數(shù)據(jù)庫可擴(kuò)展性和高可用性:基于web的架構(gòu)當(dāng)中,數(shù)據(jù)庫無法通過添加更多的硬件和服務(wù)節(jié)點(diǎn)來擴(kuò)展性能和負(fù)載能力,對于很多需要提供24小時(shí)不間斷服務(wù)的網(wǎng)站來說,數(shù)據(jù)庫系統(tǒng)升級和擴(kuò)展卻只能通過停機(jī)來實(shí)現(xiàn),這無疑是一個(gè)艱難的決定。

三、NOSQL數(shù)據(jù)庫

1.NOSQL數(shù)據(jù)庫理論基礎(chǔ)

NOSQL作為新興數(shù)據(jù)庫系統(tǒng)概念,由于其具備處理海量數(shù)據(jù)的能力,近年來受到各大IT公司的追捧。Amazon、Google等大型網(wǎng)商已紛紛斥資進(jìn)行研究并開發(fā)了適用的產(chǎn)品。談及NOSQL數(shù)據(jù)庫,首先應(yīng)該了解支持NOSQL的理論:CAP理論、BASE思想和最終一致性。

(1)CAP理論

CAP理論由Eric Brewer在ACM PODC會(huì)議上的主題報(bào)告中提出,這個(gè)理論是NOSQL數(shù)據(jù)管理系統(tǒng)構(gòu)建的基礎(chǔ),CAP解釋為一致性(Consistency)、可用性(Availability)以及分區(qū)容忍性(Partition Tolerance)。具體描述如下:

強(qiáng)一致性(Consistency):系統(tǒng)在執(zhí)行過某項(xiàng)操作后仍然處于一致的狀態(tài)。在分布式數(shù)據(jù)庫系統(tǒng)中,數(shù)據(jù)變更后所有的用戶都應(yīng)該讀取到最新的值,這樣的系統(tǒng)被認(rèn)為具有強(qiáng)一致性。

可用性(Availability):每一個(gè)操作都能夠在一定的時(shí)間內(nèi)返回結(jié)果。“一定時(shí)間內(nèi)”是指系統(tǒng)的結(jié)果必須在給定時(shí)間內(nèi)返回,如果超時(shí)則被認(rèn)為不可用,“返回結(jié)果”同樣非常重要,必須能提供成功或失敗的信息。

分區(qū)容錯(cuò)性(Partition Tolerance):分區(qū)容錯(cuò)性可以理解為系統(tǒng)在存在網(wǎng)絡(luò)分區(qū)的情況下仍然可以接受請求。

CAP是在分布式環(huán)境中設(shè)計(jì)和部署系統(tǒng)時(shí)所要考慮的三個(gè)重要的系統(tǒng)需求。根據(jù)CAP理論,數(shù)據(jù)共享系統(tǒng)只能滿足這三個(gè)特性中的兩個(gè),不能同時(shí)滿足三個(gè)條件。因此系統(tǒng)設(shè)計(jì)者必須在這三個(gè)特性之間做出權(quán)衡。例如Amazon的Dynamo具有高可用性和分區(qū)容錯(cuò)性但不支持強(qiáng)一致性,也就是說用戶不能立即看到其他用戶更新的內(nèi)容。

(2)BASE思想

BASE(Basically Availble),基本可用,強(qiáng)調(diào)數(shù)據(jù)庫的最終一致(Eventually consistent最終一致,最終數(shù)據(jù)一致就可以,而不是時(shí)時(shí)高一致),不同于傳統(tǒng)關(guān)系數(shù)據(jù)庫基于的ACID模型。

ACID特性與高性能是不兼容的。比如,在網(wǎng)店買東西,每個(gè)客戶買東西時(shí)都會(huì)通過鎖來同步數(shù)據(jù)操作,操作完成每個(gè)客戶都可以看到一致的數(shù)據(jù)。也就是說,不允許多個(gè)客戶同時(shí)買的情況。很明顯對于大多數(shù)網(wǎng)上商城,尤其是大型網(wǎng)商來說,這個(gè)方法并不適用。

BASE思想實(shí)際上是CAP理論中AP的衍伸。通過犧牲高一致性,保證高可用性和分區(qū)容忍性。BASE思想的組成有以下3個(gè)部分:基本可用、軟狀態(tài)、最終一致性。BASE模式指的是一個(gè)應(yīng)用在任意時(shí)間首先應(yīng)該能完成最基本化的工作(即基本可用),并不需要總是一致(即軟狀態(tài)),但最終應(yīng)該是一致(即最終一致性)的。

(3)最終一致性

數(shù)據(jù)一致性可分別從使用者和提供者角度看:從使用者的角度,如何觀察數(shù)據(jù)更新;從提供者的角度,也就是服務(wù)器端,更新如何在系統(tǒng)中實(shí)現(xiàn)。

一致性可分為強(qiáng)一致性和弱一致性兩種:強(qiáng)一致性要求更新過的數(shù)據(jù)能被后續(xù)的訪問都看到,根據(jù)CAP理論,強(qiáng)一致性無法和可用性、分區(qū)容忍性同時(shí)實(shí)現(xiàn);弱一致性,指讀取操作能夠見到變化的數(shù)據(jù),但不是所有變化的數(shù)據(jù)。

最終一致性屬于弱一致性的一種,即存儲(chǔ)系統(tǒng)保證如果沒有新的更新提交,最終所有的訪問都將獲得最后的更新。如果沒有故障發(fā)生,不一致性取決于通信時(shí)延、系統(tǒng)負(fù)載以及復(fù)制策略中涉及的副本數(shù)。

2.NOSQL數(shù)據(jù)庫產(chǎn)品

NOSQL(Not Only SQL)數(shù)據(jù)庫是指那些非關(guān)系型的數(shù)據(jù)庫。NOSQL數(shù)據(jù)庫分為Key-Value、Key-Document和Key-Column這3類。典型的NOSQL產(chǎn)品有Google的BigTable、基于Hadoop HDFS的HBase、Amazon的Dynamo、CouchDB、MongoDB、Redis等。

NOSQL數(shù)據(jù)庫遵循CAP理論和BASE原則,大部分Key-Value數(shù)據(jù)庫系統(tǒng)都會(huì)根據(jù)自己的設(shè)計(jì)目的進(jìn)行相應(yīng)的選擇,如Cassandra、Dynamo滿足AP,BigTable、MongoDB滿足CP。

四、結(jié)束語

本文首先介紹了大數(shù)據(jù)概念,分析了關(guān)系數(shù)據(jù)庫在存儲(chǔ)大數(shù)據(jù)量方面的不足,并介紹了當(dāng)前NOSQL數(shù)據(jù)庫的基本理論和當(dāng)前產(chǎn)品分類。大數(shù)據(jù)時(shí)代的來臨,我們忙于如何存儲(chǔ)和處理這些數(shù)據(jù),但隨著計(jì)算機(jī)互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等網(wǎng)絡(luò)的快速發(fā)展,數(shù)據(jù)量會(huì)持續(xù)大幅增長,如何長期保存這些數(shù)據(jù)以及如何處理更大級別的數(shù)據(jù)量,都需要我們思考并解決。

參考文獻(xiàn)

[1]王珊,王會(huì)舉,覃雄派等.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2011(34).

[2]黃賢立.NOSQL非關(guān)系型數(shù)據(jù)庫的發(fā)展及應(yīng)用初探[J].福建電腦,2010(7):30.

篇10

大數(shù)據(jù)時(shí)代的到來,確實(shí)對傳統(tǒng)的數(shù)據(jù)倉庫認(rèn)知產(chǎn)生了重大的影響。什么是大數(shù)據(jù)?大數(shù)據(jù)的“大”實(shí)際上并不是最令人關(guān)注的特征。大數(shù)據(jù)是很多不同格式的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化和原始數(shù)據(jù),在某些情況下看起來與過去 30 年來我們存儲(chǔ)在數(shù)據(jù)倉庫中清一色的標(biāo)量數(shù)字和文本完全不同。從另外一個(gè)角度來講,小數(shù)據(jù)比較簡單,有比較成熟的技術(shù)應(yīng)對它。大數(shù)據(jù)是多種類型數(shù)據(jù)的組成,需要使用多種技術(shù)對待它。每一個(gè)識(shí)別和監(jiān)測它的手段和方法是不一樣的。

然而,很多大數(shù)據(jù)不能使用任何類似 SQL 這樣的工具進(jìn)行分析。對于企業(yè)及應(yīng)用來說,數(shù)據(jù)倉庫應(yīng)用更加有效。兩者并不形成替代,特別是銀行業(yè)等行業(yè)里面,更多的是互為補(bǔ)充。

數(shù)據(jù)倉庫的技術(shù)特點(diǎn)

被稱為數(shù)據(jù)倉庫之父的BillInmon在其著作《(Building the Data Warehouse))一書這樣描述:數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、相對穩(wěn)定的、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。可以從兩個(gè)層面對數(shù)據(jù)倉庫的概念進(jìn)行理解,一是數(shù)據(jù)倉庫是面向分析處理的,主要用來支持決策制定;二是數(shù)據(jù)倉庫包含歷史數(shù)據(jù),是對多個(gè)異構(gòu)的數(shù)據(jù)源數(shù)據(jù)按照主題的集成,它的數(shù)據(jù)相對固定,不會(huì)經(jīng)常改動(dòng)。

面向主題的:數(shù)據(jù)倉庫的數(shù)據(jù)都是按照一定的業(yè)務(wù)主題進(jìn)行組織的,面向主題體現(xiàn)在數(shù)據(jù)倉庫的建設(shè)中,而且還包含在業(yè)務(wù)數(shù)據(jù)分析和存儲(chǔ)上。

集成的:數(shù)據(jù)倉庫中的數(shù)據(jù)來自各個(gè)不同的分散數(shù)據(jù)庫中,它并不是對源數(shù)據(jù)庫數(shù)據(jù)的簡單拷貝,而是按照劃分好的主題和數(shù)據(jù)分析要求,經(jīng)過數(shù)據(jù)抽取、清理、匯總和整理等步驟,消除源數(shù)據(jù)中的錯(cuò)誤和不一致的數(shù)據(jù),保證數(shù)據(jù)倉庫中數(shù)據(jù)的正確性和可用性。所以,它是整合集成的。

相對穩(wěn)定的:數(shù)據(jù)倉庫的穩(wěn)定性體現(xiàn)在它的非易失性上,由于數(shù)據(jù)倉庫是面向分析的,其中的數(shù)據(jù)是從業(yè)務(wù)數(shù)據(jù)中加載過來的歷史數(shù)據(jù),所進(jìn)行的主要操作是查詢和分析,供決策分析使用,所以其修改和刪除操作很少,只需要定期的增量加載,所以具有相對穩(wěn)定特征。

反映歷史變化:數(shù)據(jù)倉庫必須能夠不斷地捕捉業(yè)務(wù)系統(tǒng)中的變化數(shù)據(jù),記錄企業(yè)生產(chǎn)過程的各個(gè)階段的信息,以滿足決策分析的需要,所以必須實(shí)時(shí)地把新變化的業(yè)務(wù)數(shù)據(jù)追加到數(shù)據(jù)倉庫中去,通過數(shù)據(jù)隨時(shí)問變化的研究和分析,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。

選擇實(shí)施方法

企業(yè)級數(shù)據(jù)倉庫的實(shí)現(xiàn)通常有兩種途徑:一種是從建造某個(gè)部門特定的數(shù)據(jù)集市開始,逐步擴(kuò)充數(shù)據(jù)倉庫所包含的主題和范圍,最后形成一個(gè)能夠完全反應(yīng)企業(yè)全貌的企業(yè)級數(shù)據(jù)倉庫;另外一種則是從一開始就從企業(yè)的整體來考慮數(shù)據(jù)倉庫的主題和實(shí)施。前一種方法是各個(gè)擊破,投資少、周期短且易于見到成果,但由于該設(shè)計(jì)開始時(shí)是以特定的部門級主題為框架的,向其他的主題和部門擴(kuò)充往往非常困難。而后一種方法恰恰相反:投資大、周期長,但是易于擴(kuò)展。

以哪種方法進(jìn)行實(shí)施,主要取決于各個(gè)行業(yè)和客戶的實(shí)際情況。如電信和銀行業(yè),采用第二種方法比較可行,這是因?yàn)檫@兩個(gè)行業(yè)業(yè)務(wù)發(fā)展變化快,為了能夠適應(yīng)將來的變化,整個(gè)數(shù)據(jù)倉庫架構(gòu)必須是可擴(kuò)展的和易于維護(hù)的。如果只是基于部門級的需求去設(shè)計(jì),將來肯定無法適應(yīng)變化。如果重新設(shè)計(jì),勢必造成前期投入的浪費(fèi)。對其他一些行業(yè),如制造業(yè)和零售業(yè),本著“急用先行”的原則,可以先從某一局部入手,慢慢擴(kuò)展為數(shù)據(jù)倉庫。

從技術(shù)上講,以部門需求作為主要考慮因素建立的系統(tǒng),它的數(shù)據(jù)量不會(huì)太大,會(huì)影響對將來數(shù)據(jù)膨脹風(fēng)險(xiǎn)的正確估計(jì),當(dāng)數(shù)據(jù)集市擴(kuò)展到企業(yè)范圍的時(shí)候,由于原有技術(shù)無法支撐新的數(shù)據(jù)規(guī)模,會(huì)造成數(shù)據(jù)裝載和數(shù)據(jù)分析速度的降低,甚至達(dá)到不可用的地步。企業(yè)級的數(shù)據(jù)倉庫會(huì)涉及更多的額業(yè)務(wù)系統(tǒng),只有充分研究各業(yè)務(wù)系統(tǒng),才能了解如何對不同格式、不同標(biāo)準(zhǔn)、不同接口的數(shù)據(jù)進(jìn)行集成。

當(dāng)然,對于第二種方法,也不是說把攤子鋪的越大越好。合理的做法是“統(tǒng)籌規(guī)劃,分步實(shí)施”。根據(jù)業(yè)務(wù)需求,把業(yè)務(wù)的主要方面都涵蓋進(jìn)去,確定彼此之間的聯(lián)系;對于次要的需求,可以預(yù)留一些接口,以備將來細(xì)化。否則,如果整個(gè)調(diào)研周期拖得太長,等進(jìn)入實(shí)施階段,業(yè)務(wù)又發(fā)生變化,不得不重新修改設(shè)計(jì),同樣會(huì)造成浪費(fèi)。

所以,先搭建好一個(gè)易于擴(kuò)展且穩(wěn)定的架構(gòu),在此基礎(chǔ)上逐步實(shí)施,是一個(gè)兼顧長遠(yuǎn)發(fā)展與合理投入的最佳方式。此外,分步實(shí)施還可以減少風(fēng)險(xiǎn):前一階段的經(jīng)驗(yàn)教訓(xùn)可以為下一階段提供有益的借鑒,從而使得數(shù)據(jù)倉庫的建設(shè)不斷完善,不斷發(fā)展。

結(jié)合先進(jìn)技術(shù) 從業(yè)務(wù)需求出發(fā)

和其他的應(yīng)用系統(tǒng)相比,數(shù)據(jù)倉庫對于需求分析和系統(tǒng)設(shè)計(jì)等前期工作要求更高,其重要性也更加突出。可以說,分析和設(shè)計(jì)階段決定了數(shù)據(jù)倉庫最終的失敗。因?yàn)樾枨蟛幻鞔_、設(shè)計(jì)不合理造成的根本性缺陷是以后實(shí)施階段所無法彌補(bǔ)的。因此在分析和設(shè)計(jì)階段,對相關(guān)的業(yè)務(wù)部門和技術(shù)部門要進(jìn)行詳細(xì)的調(diào)研,在用戶和開發(fā)人員之間的迭代和反饋是必須和重要的,它決定了數(shù)據(jù)倉庫最終的成功與否。

由于數(shù)據(jù)倉庫是面向業(yè)務(wù)分析的,所以最主要的需求應(yīng)該從業(yè)務(wù)部門獲取和收集,因?yàn)閿?shù)據(jù)倉庫最終是要服務(wù)于業(yè)務(wù)部門的。需求抓的不準(zhǔn),導(dǎo)致將來將無法解決業(yè)務(wù)部門的問題,這個(gè)數(shù)據(jù)倉庫項(xiàng)目就是失敗的,技術(shù)再先進(jìn)也沒有用。這是衡量數(shù)據(jù)倉庫成敗與否的唯一尺度。

實(shí)施的過程中,最好能夠把行業(yè)專家的經(jīng)驗(yàn),與企業(yè)現(xiàn)有的需求進(jìn)行整合,以期得到一個(gè)更加全面的需求范圍,有利于適應(yīng)將來業(yè)務(wù)的變化和擴(kuò)展。

從技術(shù)角度來講,必須建立一個(gè)可伸縮、可擴(kuò)展、高性能的數(shù)據(jù)倉庫平臺(tái),才能為將來不斷的完善、不斷發(fā)展打下一個(gè)良好的基礎(chǔ);由于數(shù)據(jù)倉庫項(xiàng)目要涉及多個(gè)業(yè)務(wù)系統(tǒng),數(shù)據(jù)量非常龐大,所以本身的投入也是很大的,在保證系統(tǒng)高效穩(wěn)定的前提下,盡量降低成本是非常重要的。

相關(guān)鏈接

數(shù)據(jù)倉庫的類型

根據(jù)數(shù)據(jù)倉庫所管理的數(shù)據(jù)類型和它們所解決的企業(yè)問題范圍,一般可將數(shù)據(jù)倉庫分為下列3種類型:操作型數(shù)據(jù)庫(ODS)、數(shù)據(jù)倉庫(Data Warehouse)和數(shù)據(jù)集市(Data Mart)。

操作型數(shù)據(jù)庫(ODS)

既可以被用來針對工作數(shù)據(jù)做決策支持,又可用做將數(shù)據(jù)加載到數(shù)據(jù)倉庫時(shí)的過渡區(qū)域。與 DW 相比較,ODS 有下列特點(diǎn):ODS 是面向主題和面向綜合的;ODS 是易變的;ODS 僅僅含有目前的、詳細(xì)的數(shù)據(jù),不含有累計(jì)的、歷史性的數(shù)據(jù)。

數(shù)據(jù)倉庫(Data Warehouse)

篇11

通過對電力系統(tǒng)動(dòng)態(tài)性和實(shí)時(shí)性監(jiān)測可以掌握大量的實(shí)時(shí)數(shù)據(jù),它是電力系統(tǒng)動(dòng)態(tài)運(yùn)行的具體體現(xiàn),但這也嚴(yán)重制約了電力系統(tǒng)的長期發(fā)展。現(xiàn)代電力運(yùn)營監(jiān)測員應(yīng)充分利用電力運(yùn)營監(jiān)測平臺(tái),提升系統(tǒng)數(shù)據(jù)利用率,建立以供電部門基礎(chǔ)數(shù)據(jù)處理,做好各項(xiàng)數(shù)據(jù)的銜接、處理,協(xié)同各部門協(xié)同問題,促進(jìn)國家電網(wǎng)數(shù)據(jù)系統(tǒng)的高效運(yùn)轉(zhuǎn)。

1大數(shù)據(jù)時(shí)代相關(guān)內(nèi)容概述

1.1大數(shù)據(jù)時(shí)代整體發(fā)展形勢

從我國互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,各行業(yè)企業(yè)在大數(shù)據(jù)時(shí)代中均積累了大量的經(jīng)營數(shù)據(jù),它決定了企業(yè)的長期健康發(fā)展。為了更好的完成我國電力企業(yè)在大數(shù)據(jù)時(shí)代下的發(fā)展任務(wù),本文筆者主要從以下四方面進(jìn)行了大數(shù)據(jù)時(shí)展形勢加以概括,進(jìn)一步實(shí)現(xiàn)對電力企業(yè)數(shù)據(jù)共享,實(shí)現(xiàn)多種資源的優(yōu)化整合:

一,促進(jìn)電力各部門數(shù)據(jù)的優(yōu)化整合與共享,提升企業(yè)各種資源的整體利用率;二,加快電力數(shù)據(jù)資源開放力度,擴(kuò)大資源利用面;三,進(jìn)行大數(shù)據(jù)基礎(chǔ)設(shè)施的統(tǒng)籌規(guī)劃,提升數(shù)據(jù)資源利用的合理性;四,構(gòu)建科學(xué)的宏觀調(diào)控?cái)?shù)據(jù)體系,進(jìn)一步實(shí)現(xiàn)電力運(yùn)營監(jiān)控的宏觀調(diào)控。

1.2充分發(fā)揮大數(shù)據(jù)平臺(tái)業(yè)務(wù)優(yōu)勢,進(jìn)行管理短板定位

綜合考量電力運(yùn)營業(yè)務(wù)流程績效指標(biāo),對業(yè)務(wù)流程整體執(zhí)行效率進(jìn)行綜合評價(jià);進(jìn)行執(zhí)行效率較低業(yè)務(wù)流程環(huán)節(jié)的準(zhǔn)確定位,全面分析業(yè)務(wù)流程設(shè)計(jì)的科學(xué)性與合理性,并提出綜合性流程改進(jìn)建議;我們應(yīng)當(dāng)在整體業(yè)務(wù)流程績效指標(biāo)和詳細(xì)數(shù)據(jù)的基礎(chǔ)上,作出有關(guān)于業(yè)務(wù)流程制度、崗位績效、職責(zé)及標(biāo)準(zhǔn)的整體改進(jìn)意見和建議;提升各部門、不同業(yè)務(wù)之間的協(xié)同性,進(jìn)行管理短板的準(zhǔn)確定位。

1.3加強(qiáng)數(shù)據(jù)資源安全保障

數(shù)據(jù)資源的有效利用離不開數(shù)據(jù)體系的健全和完善,它是加強(qiáng)大數(shù)據(jù)環(huán)境網(wǎng)絡(luò)技術(shù)研究和安全的關(guān)鍵,只有構(gòu)建大數(shù)據(jù)時(shí)代下的電力運(yùn)營監(jiān)測安全評估體系,才能夠使企業(yè)在大數(shù)據(jù)安全基礎(chǔ)上,提升電力運(yùn)營監(jiān)測和預(yù)警工作質(zhì)量,提升電力企業(yè)服務(wù)水平。

2做好大數(shù)據(jù)時(shí)代電力運(yùn)營監(jiān)測系統(tǒng)數(shù)據(jù)處理

2.1監(jiān)測數(shù)據(jù)類型

電力運(yùn)營監(jiān)測數(shù)據(jù)類型主要分為基礎(chǔ)型數(shù)據(jù)、電力企業(yè)運(yùn)營數(shù)據(jù)以及電力企業(yè)管理數(shù)據(jù)幾種,基礎(chǔ)型數(shù)據(jù)是以電力企業(yè)生產(chǎn)數(shù)據(jù)為主,它包含了電壓穩(wěn)定性、發(fā)電量、電能質(zhì)量等,業(yè)務(wù)部門和業(yè)務(wù)系統(tǒng)要確保基礎(chǔ)數(shù)據(jù)的完整性和準(zhǔn)確性;電力企業(yè)運(yùn)營數(shù)據(jù)指的是電力企業(yè)在生產(chǎn)過程中所產(chǎn)生的數(shù)據(jù),通過對上述數(shù)據(jù)進(jìn)行分析、處理,它能夠?yàn)楣菊w運(yùn)營決策指明方向。電力企業(yè)管理數(shù)據(jù)僅限于特定環(huán)境下的共享和使用,它主要指協(xié)同辦公、ERP及一體化平臺(tái)等方面數(shù)據(jù),做好該方面數(shù)據(jù)分析、處理有利于推進(jìn)各部門工作的開展。

2.2監(jiān)測移動(dòng)數(shù)據(jù)處理

針對運(yùn)營監(jiān)測信息支撐系統(tǒng)來講,異動(dòng)產(chǎn)生、處理、統(tǒng)計(jì)是異動(dòng)管理的主要內(nèi)容,異動(dòng)類型又可分為數(shù)據(jù)質(zhì)量異動(dòng)、接口異動(dòng)和數(shù)據(jù)質(zhì)量異動(dòng)三種,業(yè)務(wù)異動(dòng)就是通過業(yè)務(wù)數(shù)據(jù)分析出生產(chǎn)運(yùn)營情況,業(yè)務(wù)異動(dòng)又可詳細(xì)劃分為指標(biāo)異動(dòng)、流程異動(dòng)和明細(xì)數(shù)據(jù)異動(dòng);而數(shù)據(jù)質(zhì)量異動(dòng)就是要分析出接入數(shù)據(jù)的準(zhǔn)確性、完整性和及時(shí)性,并作出相關(guān)異動(dòng)數(shù)據(jù)信息分析、處理。接口異動(dòng)就是因接口問題產(chǎn)生的異動(dòng)情況。

3.大數(shù)據(jù)時(shí)代下電力運(yùn)營監(jiān)控?cái)?shù)據(jù)應(yīng)用

3.1電力生產(chǎn)環(huán)節(jié)中大數(shù)據(jù)的具體應(yīng)用

由于電力系統(tǒng)管理項(xiàng)目眾多,想要單純依靠人力來完成數(shù)據(jù)的分析和整體難度極大,只有充分利用現(xiàn)代化信息技術(shù)手段和多種業(yè)務(wù)模型才能夠不斷提升輸電線路可靠性和在線計(jì)算輸送功率,更好的完成電力生產(chǎn)相關(guān)技術(shù)指標(biāo),促進(jìn)電壓質(zhì)量管理工作的發(fā)展。常態(tài)化低電壓監(jiān)測有利于實(shí)現(xiàn)用戶和低電壓電臺(tái)之間的協(xié)同合作,實(shí)現(xiàn)對低電壓運(yùn)行情況的跟蹤治理。因此,電力系統(tǒng)相關(guān)部門應(yīng)在大數(shù)據(jù)環(huán)境下,按期做好停復(fù)電監(jiān)測和電壓質(zhì)量分析報(bào)告。

3.2大數(shù)據(jù)在電力系統(tǒng)營銷中的具體應(yīng)用

遠(yuǎn)程視頻技術(shù)應(yīng)用能夠幫助電力運(yùn)營工作人員進(jìn)行相關(guān)業(yè)務(wù)的巡查,是運(yùn)營監(jiān)測中心針對高壓電力作業(yè)實(shí)施的重要舉措。通過遠(yuǎn)程視頻技術(shù)的幫助能夠極大的縮短營業(yè)窗口情況的巡視,進(jìn)一步提升電力營業(yè)窗口整體服務(wù)質(zhì)量,降低用戶投訴率,提升電力用戶的滿意度。積極開展工業(yè)電量預(yù)測,更好的滿足用電需求管理,促進(jìn)用電系統(tǒng)稽查監(jiān)控業(yè)務(wù),更好的挖掘線損治理工作成效挖掘及典型案例提煉。

3.3大數(shù)據(jù)在電力檢修中的具體應(yīng)用

電力系統(tǒng)運(yùn)營中心通過大數(shù)據(jù)運(yùn)營監(jiān)控平臺(tái)的利用,充分實(shí)現(xiàn)了對電網(wǎng)設(shè)備運(yùn)維、資產(chǎn)壽命周期以及資金收支等情況,并將其上報(bào)于上級在線監(jiān)測分析系統(tǒng)中,保證電網(wǎng)系統(tǒng)的正常穩(wěn)定運(yùn)行,進(jìn)一步完成電網(wǎng)設(shè)備運(yùn)維績效分析。我們應(yīng)當(dāng)綜合利用大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘手段,做好電網(wǎng)生產(chǎn)運(yùn)營過程中的操作票、工作票及缺陷記錄等相關(guān)明細(xì)的分析和靜態(tài)數(shù)據(jù)流程匹配工作,做好配電網(wǎng)絡(luò)設(shè)備的日常巡視、檢修處理等工作,促進(jìn)各部門之間的協(xié)同,提升電網(wǎng)運(yùn)維管理工作發(fā)展,盡早發(fā)現(xiàn)電網(wǎng)運(yùn)營過程中存在的不足,全面掌握巡視、檢修、缺陷發(fā)現(xiàn)等流程績效分析,做好各環(huán)節(jié)定量診斷調(diào)度和檢修,進(jìn)一步實(shí)現(xiàn)電網(wǎng)系統(tǒng)的縱向貫通和橫向協(xié)同,不斷提升我國電網(wǎng)運(yùn)維管理水平。據(jù)相關(guān)數(shù)據(jù)統(tǒng)計(jì),我國大數(shù)據(jù)時(shí)代下電力運(yùn)營監(jiān)控線路消缺原因、消缺時(shí)長如下圖1所示:

4結(jié)束語

經(jīng)上述分析,我們可以了解到數(shù)據(jù)信息維護(hù)、處理對于電力自動(dòng)化系統(tǒng)運(yùn)用意義重大,只有充分利用大數(shù)據(jù)時(shí)代所帶來的數(shù)據(jù)分析、處理、應(yīng)用方面的優(yōu)勢,做好不同數(shù)據(jù)類型的準(zhǔn)備工作,進(jìn)行電力自動(dòng)化系統(tǒng)數(shù)據(jù)準(zhǔn)確性、快速性整合,采用科學(xué)合理的策略指導(dǎo),促進(jìn)大數(shù)據(jù)時(shí)代電力系統(tǒng)數(shù)據(jù)的長期可持續(xù)發(fā)展。

參考文獻(xiàn)

篇12

[中圖分類號(hào)]F270.7-TP311.13 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1673-0194(2015)02-0058-01

1 數(shù)據(jù)挖掘技術(shù)的分析方法

現(xiàn)在作為數(shù)據(jù)挖掘的主要工作就是分析方法,只有科學(xué)、可信賴的算法才能夠幫助數(shù)據(jù)進(jìn)行挖掘工作,找尋數(shù)據(jù)中隱藏的一些規(guī)律。只有利用不同的分析方法,才能解決各種不同的問題。而現(xiàn)在常見的分析方法有聚類分析、分類和事先推測、關(guān)聯(lián)分析。

1.1 聚類

聚類分析是將一組數(shù)據(jù)分類成相近性及有異性這樣幾個(gè)種類,這樣做的目的就是將同一種類型的數(shù)據(jù)之間的相近性發(fā)展到最大化,不同種類之間數(shù)據(jù)的相近性盡可能的降低。這項(xiàng)分析方法可以用到客戶團(tuán)體的分類、客戶背景分析、客戶購買的事先推測、市場細(xì)分等。聚類分析廣泛的存在于心理學(xué)、醫(yī)學(xué)、數(shù)據(jù)識(shí)別等領(lǐng)域中。

1.2 分類及事先推測

分類是將數(shù)據(jù)庫里面的數(shù)據(jù)對象的相同點(diǎn)按照分類的形式將其歸為不同的類型。這樣做的目的就是經(jīng)過分類的形式把數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)反射到特點(diǎn)的一個(gè)類型。這可以用到客戶的分類、特性、滿意程度、購買趨勢等。而事先的推測是建立連續(xù)值函數(shù)模型,常見的方法有局勢外推測法、時(shí)間序列法、回歸分析的方法。

1.3 關(guān)聯(lián)分析

在自然界中,每個(gè)事物之間都有一定的聯(lián)系,如果發(fā)生一件事情,肯定會(huì)關(guān)聯(lián)到其他的相應(yīng)事件。關(guān)聯(lián)分析就是利用到來事物之間存在的聯(lián)系和相互之間的依賴性的規(guī)律,對于這些事件進(jìn)行的預(yù)測。在數(shù)據(jù)庫中的表現(xiàn)就是數(shù)據(jù)項(xiàng)之間存在的問題之間的關(guān)聯(lián),就是一個(gè)事物中的某一項(xiàng)事物可能會(huì)導(dǎo)致其他一系列事項(xiàng)的出現(xiàn)。對于企業(yè)的客戶管理有著非常大的幫助,對于數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行挖掘,找出影響市場的因素,為各種活動(dòng)提供依據(jù)。

1.4 特征

特征分析方法就是將數(shù)據(jù)庫里面的一組數(shù)據(jù)抽取出有關(guān)這組數(shù)據(jù)的特征式,這種特征式能夠表現(xiàn)出數(shù)據(jù)的整體的特征。就像營銷工作人員對于客戶流失數(shù)據(jù)的提取能夠了解到原因,利用這些數(shù)據(jù)找到原因后就能幫助挽留客戶。

2 數(shù)據(jù)挖掘在企業(yè)中的應(yīng)用

2.1 市場營銷和經(jīng)營

數(shù)據(jù)挖掘最早應(yīng)用的行業(yè)就是市場營銷,市場營銷行業(yè)利用數(shù)據(jù)挖掘技術(shù)對于用戶進(jìn)行分析挖掘來獲得客戶的消費(fèi)習(xí)慣和特征,這樣做的目的是來提升銷售的業(yè)績。當(dāng)然,現(xiàn)在數(shù)據(jù)挖掘不僅是在超市購物上被利用,還普及到很多的金融行業(yè)。

經(jīng)營上使用的具體實(shí)例:一些郵件類的廣告上,可以根據(jù)數(shù)據(jù)挖掘幫助確定客戶可能會(huì)購買的產(chǎn)品,這樣可以節(jié)約很多的郵資,還能夠幫助管理客戶之間的關(guān)系,也就是經(jīng)過分析那些可能走向競爭對手的客戶的特點(diǎn),這樣就能針對性的來留住顧客。購買方式:利用數(shù)據(jù)挖掘技術(shù)給零售商提供方便,零售商能夠通過這一技術(shù)確定顧客會(huì)購買哪些商品,還有就是在商店中該放那樣的商品供顧客選擇,目的是方便顧客購買,這樣能夠幫助銷售量的提高。當(dāng)然數(shù)據(jù)挖掘技術(shù)還能夠幫助用戶分析、評判促銷活動(dòng)會(huì)產(chǎn)生的成效。

2.2 電力、電信行業(yè)

隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,電網(wǎng)業(yè)務(wù)在不斷的進(jìn)步和豐富。而電信行業(yè)快速的發(fā)展,電信技術(shù)和服務(wù)成為一個(gè)巨大的混合載體,對于市場關(guān)系、技術(shù)服務(wù)有極大的影響。對于企業(yè)的資源進(jìn)行有效的整體和結(jié)合,形成一個(gè)非常大的關(guān)系網(wǎng)和信息數(shù)據(jù)系統(tǒng)。對這些數(shù)據(jù)進(jìn)行挖掘成為解決各種問題的有效方法,為企業(yè)的發(fā)展有著非常重要的推動(dòng)作用。

2.3 互聯(lián)網(wǎng)和云計(jì)算機(jī)

互聯(lián)網(wǎng)對于數(shù)據(jù)挖掘有很多的應(yīng)用,比如搜索引擎、電子商務(wù)等。這些都是利用數(shù)據(jù)挖掘技術(shù)在龐大的數(shù)據(jù)海洋中找尋能夠符合客戶要求的信息。常見的就是根據(jù)預(yù)測分類算法來預(yù)測出客戶應(yīng)該需要的信息。

2.4 金融行業(yè)

銀行、通信公司、保險(xiǎn)行業(yè)這些在評估客戶的信用等級上需要注意安全。數(shù)據(jù)挖掘的利用在金融行業(yè)是非常的重要,當(dāng)然數(shù)據(jù)挖掘技術(shù)在這方面取得了很好的成績,可以幫助這些金融企業(yè)正確的識(shí)別出詐騙行為、控制風(fēng)險(xiǎn)。如2003年春天,廣東分行在進(jìn)行信貸電子數(shù)據(jù)分析的時(shí)候,發(fā)現(xiàn)了一些異常的現(xiàn)象,發(fā)現(xiàn)除了南海華光公司的馮某對于銀行進(jìn)行的詐騙行為,其中有74億元被騙取,這并不是通過舉報(bào)而獲得線索,而是經(jīng)過數(shù)據(jù)挖掘技術(shù),發(fā)現(xiàn)馮某公司信貸出現(xiàn)的異常,然后被審計(jì)人員發(fā)現(xiàn)并驗(yàn)證這一詐騙行為,若不是數(shù)據(jù)挖掘要想發(fā)現(xiàn)這一詐騙可謂是難上加難。

3 結(jié) 語

篇13

大數(shù)據(jù)指非常龐大的數(shù)據(jù)集,尤其是那些沒有被整齊的組織起來無法適應(yīng)傳統(tǒng)數(shù)據(jù)倉庫的數(shù)據(jù)集。網(wǎng)絡(luò)蜘蛛數(shù)據(jù)、社交媒體反饋和服務(wù)器日志,以及來自供應(yīng)鏈、行業(yè)、周邊環(huán)境與監(jiān)視傳感器的數(shù)據(jù)都使得公司的數(shù)據(jù)變得比以往越來越復(fù)雜。

盡管并不是每個(gè)公司都需要處理大型、非結(jié)構(gòu)型數(shù)據(jù)集的技術(shù)。VeriskAnalytics公司首席信息官PerryRotella認(rèn)為所有的首席信息官都應(yīng)當(dāng)關(guān)注大數(shù)據(jù)分析工具。Verisk幫助金融公司評估風(fēng)險(xiǎn),與保險(xiǎn)公司共同防范保險(xiǎn)詐騙,其在2010年的營收超過了10億美元。Rotella認(rèn)為,技術(shù)領(lǐng)導(dǎo)者對此應(yīng)當(dāng)采取的態(tài)度是,數(shù)據(jù)越多越好,歡迎數(shù)據(jù)的大幅增長。Rotella的工作是預(yù)先尋找事物間的聯(lián)系與模型。

HMS公司首席信息官CynthiaNustad認(rèn)為,大數(shù)據(jù)呈現(xiàn)為一種“爆炸性”增長趨勢。HMS公司的業(yè)務(wù)包括幫助控制聯(lián)邦醫(yī)療保險(xiǎn)(Medicare)和醫(yī)療補(bǔ)助(Medicaid)項(xiàng)目成本和私有云服務(wù)。其客戶包括40多個(gè)州的健康與人類服務(wù)項(xiàng)目和130多個(gè)醫(yī)療補(bǔ)助管理計(jì)劃。HMS通過阻止錯(cuò)誤支付在2010年幫助其客戶挽回了18億美元的損失,節(jié)約了數(shù)十億美元。Nustad稱:“我們正在收集并追蹤大量素材,包括結(jié)構(gòu)性與非結(jié)構(gòu)性數(shù)據(jù),因?yàn)槟悴⒉皇强偸侵滥銓⒃谄渲袑ふ沂裁礀|西。”

大數(shù)據(jù)技術(shù)中談?wù)撟疃嗟囊豁?xiàng)技術(shù)是Hadoop。該技術(shù)為開源分布式數(shù)據(jù)處理平臺(tái),最初是為編輯網(wǎng)絡(luò)搜索索引等任務(wù)開發(fā)的。Hadoop為多個(gè)“非關(guān)系型(NoSQL)”技術(shù)(其包括CouchDB和MongoDB)中的一種,其通過特殊的方式組織網(wǎng)絡(luò)級數(shù)據(jù)。

Hadoop可將數(shù)據(jù)的子集合分配給成百上千臺(tái)服務(wù)器的處理,每臺(tái)服務(wù)器匯報(bào)的結(jié)果都將被一個(gè)主作業(yè)調(diào)度程序整理,因此其具有處理拍字節(jié)級數(shù)據(jù)的能力。Hadoop既能夠用于分析前的數(shù)據(jù)準(zhǔn)備,也能夠作為一種分析工具。沒有數(shù)千臺(tái)空閑服務(wù)器的公司可以從亞馬遜等云廠商那里購買Hadoop實(shí)例的按需訪問。

Nustad稱,盡管并不是為了其大型的聯(lián)邦醫(yī)療保險(xiǎn)和醫(yī)療補(bǔ)助索賠數(shù)據(jù)庫,但是HMS正在探索NoSQL技術(shù)的使用。其包括了結(jié)構(gòu)性數(shù)據(jù),并且能夠被傳統(tǒng)的數(shù)據(jù)倉庫技術(shù)所處理。她稱,在回答什么樣的關(guān)系型技術(shù)是經(jīng)實(shí)踐證明最好用的解決方案時(shí),從傳統(tǒng)關(guān)系型數(shù)據(jù)庫管理出發(fā)是并不明智。不過,Nustad認(rèn)為Hadoop正在防止欺詐與浪費(fèi)分析上發(fā)揮著重要作用,并且具備分析以各種格式上報(bào)的病人看病記錄的潛力。

在采訪中,那些體驗(yàn)過Hadoop的受訪首席信息官們,包括Rotella和Shopzilla公司首席信息官JodyMulkey在內(nèi)都在將數(shù)據(jù)服務(wù)作為公司一項(xiàng)業(yè)務(wù)的公司中任職。

Mulkey稱:“我們正在使用Hadoop做那些以往使用數(shù)據(jù)倉庫做的事情。更重要的是,我們獲得了以前從未用過的切實(shí)有用的分析技術(shù)。”例如,作為一家比較購買網(wǎng)站,Shopzilla每天會(huì)積累數(shù)太字節(jié)的數(shù)據(jù)。他稱:“以前,我們必須要對數(shù)據(jù)進(jìn)行采樣并對數(shù)據(jù)進(jìn)行歸類。在處理海量數(shù)據(jù)時(shí),這一工作量非常繁重。”自從采用了Hadoop,Shopzilla能夠分析原始數(shù)據(jù),跳過許多中間環(huán)節(jié)。

GoodSamaritan醫(yī)院是一家位于印第安納州西南的社區(qū)醫(yī)院,其處于另一種類型。該醫(yī)院的首席信息官ChuckChristian稱:“我們并沒有我認(rèn)為是大數(shù)據(jù)的東西。”盡管如此,管理規(guī)定要求促使其存儲(chǔ)整如龐大的電子醫(yī)療記錄等全新的數(shù)據(jù)類型。他稱,這無疑要求他們要能夠從數(shù)據(jù)中收集醫(yī)療保健品質(zhì)信息。不過,這可能將在地區(qū)或國家醫(yī)療保健協(xié)會(huì)中實(shí)現(xiàn),而不是在他們這種單個(gè)醫(yī)院中實(shí)現(xiàn)。因此,Christian未必會(huì)對這種新技術(shù)進(jìn)行投資。

IslandOneResorts公司首席信息官JohnTernent稱,其所面臨的分析挑戰(zhàn)取決于大數(shù)據(jù)中的“大”還是“數(shù)據(jù)”。不過,目前他正在謹(jǐn)慎地考慮在云上使用Hadoop實(shí)例,以作為一種經(jīng)濟(jì)的方式分析復(fù)雜的抵押貸款組合。目前公司正在管理著佛羅里達(dá)州內(nèi)的8處分時(shí)度假村。他稱:“這種解決方案有可能解決我們目前正遇到的實(shí)際問題。”

2.商業(yè)分析速度加快

肯塔基大學(xué)首席信息官VinceKellen認(rèn)為,大數(shù)據(jù)技術(shù)只是快速分析這一大趨勢中的一個(gè)元素。他稱:“我們期待的是一種更為先進(jìn)的海量數(shù)據(jù)分析方法。”與更為快速地分析數(shù)據(jù)相比,數(shù)據(jù)的大小并不重要,“因?yàn)槟阆胱屵@一過程快速完成”。

由于目前的計(jì)算能夠在內(nèi)存中處理更多的數(shù)據(jù),因此與在硬盤中搜索數(shù)據(jù)相比,其計(jì)算出結(jié)果的速度要更快。即使你僅處理數(shù)G數(shù)據(jù),但情況依然與此。

盡管經(jīng)過數(shù)十年的發(fā)展,通過緩存頻繁訪問的數(shù)據(jù),數(shù)據(jù)庫性能提升了許多。在加載整個(gè)大型數(shù)據(jù)集至服務(wù)器或服務(wù)器集群的內(nèi)存時(shí),這一技術(shù)變得更加實(shí)用,此時(shí)硬盤只是作為備份。由于從旋轉(zhuǎn)的磁盤中檢索數(shù)據(jù)是一個(gè)機(jī)械過程,因此與在內(nèi)存中處理數(shù)據(jù)相比,其速度要慢許多。

Rotella稱,他現(xiàn)在幾秒中進(jìn)行的分析在五年前需要花上一個(gè)晚上。Rotella的公司主要是對大型數(shù)據(jù)集進(jìn)行前瞻性分析,這經(jīng)常涉及查詢、尋找模型、下次查詢前的調(diào)整。在分析速度方面,查詢完成時(shí)間非常重要。他稱:“以前,運(yùn)行時(shí)間比建模時(shí)間要長,但是現(xiàn)在建模時(shí)間要比運(yùn)行時(shí)間長。”

列式數(shù)據(jù)庫服務(wù)器改變了關(guān)系型數(shù)據(jù)庫的傳統(tǒng)行與列結(jié)構(gòu),解決了另一些性能需求。查詢僅訪問有用的列,而不是讀取整個(gè)記錄和選取可選列,這極大地提高了組織或測量關(guān)鍵列的應(yīng)用的性能。

Ternent警告稱,列式數(shù)據(jù)庫的性能優(yōu)勢需要配合正確的應(yīng)用和查詢設(shè)計(jì)。他稱:“為了進(jìn)行區(qū)別,你必須以適當(dāng)?shù)姆绞絾査m當(dāng)?shù)膯栴}。”此此同時(shí),他還指出,列式數(shù)據(jù)庫實(shí)際上僅對處理超過500G字節(jié)數(shù)據(jù)的應(yīng)用有意義。他稱:“在讓列式數(shù)據(jù)庫發(fā)揮作用之前,你必須收集一規(guī)模的數(shù)據(jù),因?yàn)樗蕾囈欢ㄋ降闹貜?fù)提升效率。”

保險(xiǎn)與金融服務(wù)巨頭JohnHancock公司的首席信息官AllanHackney稱,為了提高分析性能,硬件也需要進(jìn)行提升,如增加GPU芯片,其與游戲系統(tǒng)中用到的圖形處理器相同。他稱:“可視化需用到的計(jì)算方法與統(tǒng)計(jì)分析中用到的計(jì)算方法非常相似。與普通的PC和服務(wù)器處理器相比,圖形處理器的計(jì)算速度要快數(shù)百倍。我們的分析人員非常喜歡這一設(shè)備。”

3.技術(shù)成本下降

隨著計(jì)算能力的增長,分析技術(shù)開始從內(nèi)存與存儲(chǔ)價(jià)格的下降中獲益。同時(shí),隨著開源軟件逐漸成為商業(yè)產(chǎn)品的備選產(chǎn)品,競爭壓力也導(dǎo)致商業(yè)產(chǎn)品價(jià)格進(jìn)一步下降。

Ternent為開源軟件的支持者。在加入IslandOne公司之前,Ternent為開源商業(yè)智能公司Pentaho的工程副總裁。他稱:“對于我來說,開源決定著涉足領(lǐng)域。因?yàn)橄馡slandOne這樣的中等規(guī)模公司能夠用開源應(yīng)用R替代SAS進(jìn)行統(tǒng)計(jì)分析。”

以前開源工具僅擁有基本的報(bào)告功能,但是現(xiàn)在它們能夠提供最為先進(jìn)的預(yù)測分析。他稱:“目前開源參與者能夠橫跨整個(gè)連續(xù)統(tǒng)一體,這意味著任何人都能夠使用它們。”HMS公司的Nustad認(rèn)為,計(jì)算成本的變化正在改變著一些基礎(chǔ)性架構(gòu)的選擇。例如,創(chuàng)建數(shù)據(jù)倉庫的一個(gè)傳統(tǒng)因素是讓數(shù)據(jù)一起進(jìn)入擁有強(qiáng)大計(jì)算能力的服務(wù)器中以處理它們。當(dāng)計(jì)算能力不足時(shí),從操作系統(tǒng)中分離分析工作負(fù)載可以避免日常工作負(fù)載的性能出現(xiàn)下降。Nustad稱,目前這已經(jīng)不再是一個(gè)合適的選擇了。

她稱:“隨著硬件與存儲(chǔ)越來越便宜,你能夠讓這些操作系統(tǒng)處理一個(gè)商業(yè)智能層。”通過重定數(shù)據(jù)格式和將數(shù)據(jù)裝載至倉庫中,直接建立在操作應(yīng)用上的分析能夠更為迅速地提供答案。

Hackney觀察認(rèn)為,盡管性價(jià)比趨勢有利于管理成本,但是這些潛在的節(jié)約優(yōu)勢將被日益增長的能力需求所抵消。盡管JohnHancock每臺(tái)設(shè)備的存儲(chǔ)成本在今年下降了2至3%,但是消耗卻增長了20%。

4.移動(dòng)設(shè)備的普及

與所有的應(yīng)用一樣,商業(yè)智能正日益移動(dòng)化。對于Nustad來說,移動(dòng)商業(yè)智能具有優(yōu)先權(quán),因?yàn)槊總€(gè)人都希望Nustad能夠隨時(shí)隨地親自訪問關(guān)于她的公司是否達(dá)到了服務(wù)級協(xié)議的報(bào)告。她還希望為公司的客戶提供數(shù)據(jù)的移動(dòng)訪問,幫助客戶監(jiān)控和管理醫(yī)療保健開銷。她稱:“這是一個(gè)客戶非常喜歡的功能。在五年前,客戶不需要這一功能,但是現(xiàn)在他們需要這一功能了。”

對于首席信息官來說,要迎合這一趨勢更多的是為智能手機(jī)、平板電腦和觸摸屏設(shè)備創(chuàng)建適用的用戶界面,而不是更為復(fù)雜的分析能力。或許是出于這方面的原因,Kellen認(rèn)為這相對容易。他稱:“對于我來說,這只是小事情。”

Rotella并不認(rèn)為這很簡單。他稱:“移動(dòng)計(jì)算影響著每一個(gè)人。許多人開始使用iPad工作,同時(shí)其它的移動(dòng)設(shè)備正在呈現(xiàn)爆炸式增長。這一趨勢正在加速并改變我們與公司內(nèi)部計(jì)算資源交互的方式。”例如,Verisk已經(jīng)開發(fā)了能夠讓理賠人在現(xiàn)場快速進(jìn)行分析的產(chǎn)品,因此他們能夠進(jìn)行重置成本評估。他稱:“這種方式對我們的分析產(chǎn)生了影響,同時(shí)也讓每一個(gè)需要它的人隨手就能使用。”

Rotella稱:“引發(fā)這種挑戰(zhàn)的因素在于技術(shù)的更新速度。兩年前,我們沒有iPad,而現(xiàn)在許多人都在使用iPad。隨著多種操作系統(tǒng)的出現(xiàn),我們正力爭搞清楚其是如何影響我們的研發(fā)的,這樣一來我們就不必一而再、再而三的編寫這些應(yīng)用。”IslandOne的Ternent指出,另一方面,為每一種移動(dòng)平臺(tái)創(chuàng)建原生應(yīng)用的需求可能正在消退,因?yàn)槟壳笆謾C(jī)和平板電腦上的瀏覽器擁有了更為強(qiáng)大的功能。Ternent稱:“如果我能夠使用一款專門針對移動(dòng)設(shè)備的基于web的應(yīng)用,那么我并不能肯定我將會(huì)對定制的移動(dòng)設(shè)備應(yīng)用進(jìn)行投資。”

5.社交媒體的加入

隨著臉譜、推特等社交媒體的興起,越來越多的公司希望分析這些由網(wǎng)站產(chǎn)生的數(shù)據(jù)。新推出的分析應(yīng)用支持人類語言處理、情感分析和網(wǎng)絡(luò)分析等統(tǒng)計(jì)技術(shù),這些并不是典型商業(yè)智能工具套件的組成部分。

由于它們都是新的,許多社交媒體分析工具可以作用服務(wù)獲得。其中一個(gè)典型范例是Radian6。Radian6為軟件即服務(wù)(SaaS)產(chǎn)品,近期已經(jīng)被Salesforce.com所收購。Radian6是一種社交媒體儀表盤,為TwITter的留言、臉譜上的帖子、博客與討論版上的帖子與評論中提及的特定術(shù)語以正負(fù)數(shù)顯示,尤其是為商標(biāo)名提供生動(dòng)的直觀推斷。當(dāng)營銷與客戶服務(wù)部門購買后,這類工具不再對IT部門有很嚴(yán)重的依賴性。目前,肯塔基大學(xué)的Kellen仍然相信他需要對它們高度關(guān)注。他稱:“我的工作是識(shí)別這些技術(shù),根據(jù)競爭力評估哪些算法適合公司,然后開始培訓(xùn)合適的人員。”

主站蜘蛛池模板: 乳源| 合江县| 繁峙县| 伊宁市| 武邑县| 怀安县| 远安县| 峨山| 怀集县| 临清市| 广昌县| 青冈县| 浮山县| 天等县| 苍梧县| 铅山县| 定结县| 阜南县| 县级市| 屏边| 凭祥市| 彭泽县| 安徽省| 哈尔滨市| 钟祥市| 平和县| 彝良县| 张家界市| 射洪县| 晋中市| 洞口县| 平乐县| 茂名市| 龙陵县| 临高县| 罗江县| 芮城县| 遂平县| 永安市| 重庆市| 彰化县|