日韩偷拍一区二区,国产香蕉久久精品综合网,亚洲激情五月婷婷,欧美日韩国产不卡

在線客服

大數(shù)據(jù)處理論文

引論:我們?yōu)槟砹?篇大數(shù)據(jù)處理論文范文,供您借鑒以豐富您的創(chuàng)作。它們是您寫作時的寶貴資源,期望它們能夠激發(fā)您的創(chuàng)作靈感,讓您的文章更具深度。

大數(shù)據(jù)處理論文

數(shù)據(jù)處理論文:電子商務(wù)大數(shù)據(jù)處理研究

當今時代,是一個信息化和網(wǎng)絡(luò)化的時代,電子信息技術(shù)的產(chǎn)生對人們的生產(chǎn)和生活產(chǎn)生了極其重要的作用和影響。隨著人們生產(chǎn)生活水平的不斷發(fā)展,電子商務(wù)順勢而生,在人們的日常生活中占據(jù)了極大的比重,對人們的消費理念和消費方式產(chǎn)生了顛覆性的改變。電子商務(wù)平臺依托于傳統(tǒng)零售業(yè)的基礎(chǔ),憑借電子信息技術(shù)和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,促進了銷售方式的改變。大數(shù)據(jù)作為一種新型的信息技術(shù),能夠有效采集、存儲和分析數(shù)據(jù),能夠提高數(shù)據(jù)信息的有效性,對于電子商務(wù)的發(fā)展而言,提高了銷售的針對性和度,促進了銷售的轉(zhuǎn)化和成交的比例,在人們消費觀念普遍轉(zhuǎn)化的今天,以大數(shù)據(jù)處理模式為基礎(chǔ)的電子商務(wù)呈現(xiàn)出蓬勃的發(fā)展態(tài)勢。那么,大數(shù)據(jù)處理模式的特點和意義體現(xiàn)在什么地方?大數(shù)據(jù)處理對電子商務(wù)有哪些影響?大數(shù)據(jù)處理模式不斷發(fā)展條件下的電子商務(wù)有什么樣的發(fā)展趨勢和發(fā)展前景?

1大數(shù)據(jù)處理模式的意義和特點

大數(shù)據(jù)處理模式,是依托于信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展而興起的一種新型技術(shù)模式,能夠有效地處理大批量的數(shù)據(jù)信息,并保障信息的安全性和性。大數(shù)據(jù)處理模式,突破了傳統(tǒng)意義上的信息搜索和信息存儲,有效捕捉和管理數(shù)據(jù)信息,決策力更強,洞察力更優(yōu),效率更高,信息更多樣化。大數(shù)據(jù)處理模式,改變了傳統(tǒng)數(shù)據(jù)收集的意義,對于數(shù)據(jù)信息的收集,其意義不在于數(shù)據(jù)信息的存儲,而是對所收集到的數(shù)據(jù)信息進行刪選整合等一系列的專業(yè)化處理,實現(xiàn)數(shù)據(jù)信息的轉(zhuǎn)化和升值,為不同行業(yè)不同領(lǐng)域的銷售轉(zhuǎn)化提供參考和動力,有效實現(xiàn)產(chǎn)業(yè)升級和企業(yè)盈利。大數(shù)據(jù)處理模式與傳統(tǒng)的數(shù)據(jù)庫不同,海量的數(shù)據(jù)只是基礎(chǔ),能夠進行復(fù)雜有效的數(shù)據(jù)分析,才是大數(shù)據(jù)處理模式的顯著優(yōu)勢。大數(shù)據(jù)處理模式有四個顯著特點:及時,數(shù)據(jù)量大。大數(shù)據(jù)處理模式能夠存儲海量信息,并保障信息的安全性。第二,數(shù)據(jù)的類型繁雜。大數(shù)據(jù)處理模式下的數(shù)據(jù),突破傳統(tǒng)的數(shù)據(jù)概念,將圖片、視頻、位置數(shù)據(jù)等都統(tǒng)稱為數(shù)據(jù)信息。第三,數(shù)據(jù)信息的處理速度極快。無論是何種類型的數(shù)據(jù),無論是何種形式的數(shù)據(jù),大數(shù)據(jù)處理模式都能在短時間內(nèi)分析出數(shù)據(jù)價值,促進轉(zhuǎn)化。第四,較高的數(shù)據(jù)價值回報。對于海量的信息,大數(shù)據(jù)處理模式能夠進行專業(yè)性的分析,并能夠在分析后對數(shù)據(jù)的使用和應(yīng)用方式提出指示性建議,帶來較高的價值回報。總之,大數(shù)據(jù)處理模式是當今時代海量數(shù)據(jù)分析的首要選擇,也是眾多行業(yè)眾多領(lǐng)域越來越傾心的數(shù)據(jù)處理的前沿方式,在信息技術(shù)和互聯(lián)網(wǎng)技術(shù)不斷發(fā)展的背景下,必定會得到更為長足的發(fā)展。

2大數(shù)據(jù)處理模式對電子商務(wù)的影響

2.1提高了電子商務(wù)領(lǐng)域信息檢索的能力

電子商務(wù)平臺,是依托于信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展而興起的商業(yè)模式,極大地改變了當代消費者的消費心理和消費習慣,但是,電子商務(wù)信息冗雜,無論是商品的種類還是商品的數(shù)量,都有海量的商家可供選擇,增加了用戶刪選的難度。只有改變這種雜亂無章的非結(jié)構(gòu)化信息數(shù)據(jù),才能提高電子商務(wù)的運營水平和銷售轉(zhuǎn)化。大數(shù)據(jù)處理模式,使得信息數(shù)據(jù)的處理更為針對性,更為靈活化。電子商務(wù)充分利用大數(shù)據(jù)處理模式,能夠?qū)崿F(xiàn)信息數(shù)據(jù)的有效檢索,根據(jù)用戶的消費需求進行針對性的信息顯示,根據(jù)用戶的消費習慣進行性的信息篩選,使得電子商務(wù)的運作更為智能化,更為高效性。大數(shù)據(jù)的處理模式,使得信息推薦更有針對性,提高了用戶的消費質(zhì)量和消費效率,節(jié)省了消費時間和消費精力,用戶只要輸入相關(guān)字眼,就能夠迅速反饋出用戶所需的信息資源,大大提高了消費用戶的滿意度。

2.2提高了電子商務(wù)平臺彈性處理的能力

電子商務(wù)平臺的發(fā)展,離不開信息數(shù)據(jù)的處理。大數(shù)據(jù)處理模式的發(fā)展,提高了電子商務(wù)平臺的彈性處理能力,能夠在極短的時間內(nèi)反饋,對大量的用戶訪問做出及時地回饋和反應(yīng)。對于電子商務(wù)而言,商家的營銷活動時時有、日日有,大量活動信息的堆積必然造成大量的訂單信息,這就對數(shù)據(jù)信息的處理提出了更高的要求。大數(shù)據(jù)的信息存儲能力有效地解決了這一問題,保障了信息存儲的安全性,優(yōu)化了資源配置,實現(xiàn)了信息數(shù)據(jù)的即取即用。電子商務(wù)的發(fā)展,依托于對信息數(shù)據(jù)的及時反饋和刪選,彈性的信息處理能力才能讓電子商務(wù)的發(fā)展如虎添翼,提高其運營的整體水平和質(zhì)量。

2.3保障了電子商務(wù)行業(yè)信息處理的安全性

大數(shù)據(jù)處理模式的發(fā)展,保障了電子商務(wù)行業(yè)信息處理的安全性。電子商務(wù)是依托于信息網(wǎng)絡(luò)技術(shù)的不斷發(fā)展而興起的消費模式,難以避免地會面臨數(shù)據(jù)信息安全與否的問題。網(wǎng)絡(luò)系統(tǒng)的癱瘓、網(wǎng)絡(luò)交易安全的缺失都會對信息安全帶來極大的威脅。而對于電商的消費用戶而言,信息安全和交易過程的安全是他們最為關(guān)心的事情,不容忽視。大數(shù)據(jù)處理模式的引進,有效存儲用戶的信息,及時對網(wǎng)絡(luò)攻擊現(xiàn)象進行審查和定位,對于一些非正常的攻擊現(xiàn)象及時收集并分析,采取有效的預(yù)防和處理措施,保障信息資源的安全性和性。云計算技術(shù)的引用,還能夠?qū)⒁恍┑男畔⑦M行進一步的轉(zhuǎn)化,使之成為云服務(wù),進而托管在云端,對這些的、重要的信息進行更為專業(yè)的防護和保密,較大化信息安全。此外,大數(shù)據(jù)的處理模式還能夠?qū)⒁恍┟舾行缘?、?shù)量極大的數(shù)據(jù)信息進行轉(zhuǎn)化,使之成為可用的信息資源,為下一步創(chuàng)造直接的經(jīng)濟價值奠定堅實基礎(chǔ)。

3大數(shù)據(jù)處理模式不斷發(fā)展的條件下電子商務(wù)的發(fā)展趨勢

3.1大數(shù)據(jù)的發(fā)展推動了電子商務(wù)平臺服務(wù)和產(chǎn)品的多樣化

大數(shù)據(jù)的不斷發(fā)展,推動了電子商務(wù)平臺服務(wù)和產(chǎn)品的多樣化發(fā)展。電子商務(wù)是以服務(wù)和產(chǎn)品為主導(dǎo)的行業(yè)類型,高質(zhì)量的服務(wù)和產(chǎn)品才是提高行業(yè)效益的根據(jù)手段和運營方式。對于電子商務(wù)所針對的用戶群體來說,大數(shù)據(jù)的不斷發(fā)展,能夠有效分析這些客戶群體的喜好和偏愛,能夠刪選有效的客戶信息,能夠有效進行客戶的針對性信息發(fā)送,提高信息的針對性和度,并根據(jù)客戶信息的提示進行服務(wù)類型和服務(wù)方式的調(diào)整,根據(jù)客戶的偏愛進行產(chǎn)品類型的刪減和增添,以促進銷售。以書包為例,不同年齡有不同的風格喜好,不同性別有不同的類別偏好,以藍胖子為主題的書包類型一定不是酷炫殺馬特風格的青少年的囊中物,胡巴的卡通形象才是呆萌少女最熱衷的產(chǎn)品類型。根據(jù)客戶不同的喜好和性格,可以有效改變服務(wù)和產(chǎn)品類型,帶動一定量的銷售業(yè)績。

3.2大數(shù)據(jù)的發(fā)展推動新型電子商務(wù)運營模式的產(chǎn)生和發(fā)展

大數(shù)據(jù)處理模式的出現(xiàn),對傳統(tǒng)的經(jīng)濟模式造成了一定的沖擊,產(chǎn)生了一系列的個性化服務(wù)和定制化產(chǎn)品類型,這些都直接影響了電子商務(wù)行業(yè)的運營模式,傳統(tǒng)的運營理念已經(jīng)遠遠不能滿足社會的發(fā)展要求和信息技術(shù)的進一步發(fā)展,創(chuàng)新電子商務(wù)的運營模式才能為電子商務(wù)的發(fā)展開辟一條坦途。大數(shù)據(jù)處理模式的出現(xiàn),對電子商務(wù)進行了區(qū)別和分析,根據(jù)所運營產(chǎn)品和服務(wù)對象的不同,依托于互聯(lián)網(wǎng)的力量,歸納出不同的運營模式:B2B的企業(yè)互惠,B2C的網(wǎng)絡(luò)直銷,C2C的消費者交易,O2O的互聯(lián)網(wǎng)銷售等,有效提高了交易速度,簡化了交易流程,提高了交易質(zhì)量,便捷了交易模式,大數(shù)據(jù)處理模式影響了電子商務(wù)不同模式競相爭榮,成為互聯(lián)網(wǎng)時代下一道亮麗的風景線。例如,近兩年不斷興起的上門服務(wù),革新了傳統(tǒng)的銷售模式和運營方式,以消費者的訴求為根本,從消費者的消費習慣和消費心理出發(fā),滿足消費者的消費體驗,便捷了操作模式和操作流程,明顯提高了交易質(zhì)量和效果。

3.3大數(shù)據(jù)的發(fā)展推動IT設(shè)施在電子商務(wù)企業(yè)發(fā)展過程中的核心競爭力

量大數(shù)據(jù)的不斷發(fā)展,推動了IT設(shè)施在電子商務(wù)企業(yè)發(fā)展過程中的核心競爭力量。傳統(tǒng)的銷售,以用戶為根本,以產(chǎn)品為主打,大數(shù)據(jù)處理模式下,雖然離不開產(chǎn)品的競爭力和用戶的體驗,但是卻借助大數(shù)據(jù)的信息處理功能,有效提高了整個交易流程的轉(zhuǎn)化。對于電子商務(wù)而言,生產(chǎn)成本、企業(yè)管理、運營模式都會影響企業(yè)在社會中的不斷發(fā)展和其在市場中的競爭力,積極引進大數(shù)據(jù)的處理模式和相應(yīng)的IT設(shè)施,能夠?qū)崿F(xiàn)資源的優(yōu)化配置和數(shù)據(jù)信息的有效利用,降低企業(yè)的生產(chǎn)成本,提高企業(yè)的產(chǎn)銷率,并較大化企業(yè)的運營管理水平。對于電子商務(wù)而言,由于其對信息技術(shù)水平和網(wǎng)絡(luò)技術(shù)的依賴性極大,積極應(yīng)用云計算構(gòu)架,采取大數(shù)據(jù)處理,能夠有效存儲海量的數(shù)據(jù)信息,并對數(shù)據(jù)信息進行刪選,為電子商務(wù)的不斷發(fā)展奠定堅實的基礎(chǔ)。總之,大數(shù)據(jù)處理模式的產(chǎn)生不是偶然的,而是當今時代信息技術(shù)與網(wǎng)絡(luò)技術(shù)不斷發(fā)展的產(chǎn)物,對各行各業(yè)都有著舉足輕重的作用和影響。電子商務(wù)作為一種網(wǎng)絡(luò)條件孕育下的銷售方式,必須立足于網(wǎng)絡(luò)環(huán)境的大背景下,以大數(shù)據(jù)的處理模式有效處理客戶信息和相應(yīng)的數(shù)據(jù)資源,提高數(shù)據(jù)信息的有效性和價值意義,促進數(shù)據(jù)信息的有效轉(zhuǎn)化,提高客戶的精準度,提高銷售量和銷售質(zhì)量,推動整個電子商務(wù)平臺的有效運營和整個行業(yè)的不斷發(fā)展。

作者:屈志強 喬靜 單位:濟寧醫(yī)學院

大數(shù)據(jù)處理論文:移動通信網(wǎng)絡(luò)中大數(shù)據(jù)處理關(guān)鍵技術(shù)研究

摘要:社會的發(fā)展以及人們生活水平的提升使得移動通信網(wǎng)絡(luò)的應(yīng)用范圍得以大范圍推廣,并且伴隨著社會對移動通信網(wǎng)絡(luò)需求的增強,大數(shù)據(jù)處理技術(shù)的應(yīng)用就應(yīng)運而生了,本文就此展開論述。

關(guān)鍵詞:移動通信網(wǎng)絡(luò);大數(shù)據(jù)處理;技術(shù)分析

伴隨著我國綜合國力的增強,科技水平也得到了進一步增強。計算機技術(shù)作為新時代的重要基礎(chǔ)技術(shù),其應(yīng)用范圍的擴大,在一定程度上促進了信息技術(shù)的騰飛發(fā)展。伴隨著日漸龐雜的數(shù)據(jù)規(guī)模,使得大數(shù)據(jù)處理技術(shù)應(yīng)時代而生。同時移動通信網(wǎng)絡(luò)技術(shù)的發(fā)展,極大的方便了人們的工作和生活。為了滿足人們?nèi)找嬖鲩L的通信需求,移動通信網(wǎng)絡(luò)也需要具備更加有力的數(shù)據(jù)處理能力和處理速度。

1大數(shù)據(jù)技術(shù)概述

現(xiàn)階段,我國數(shù)據(jù)的發(fā)展主要包括以下幾個階段:及時,被動產(chǎn)生階段。伴隨著數(shù)據(jù)庫的出現(xiàn),其在規(guī)范社會數(shù)據(jù)方面意義深遠。不過該階段數(shù)據(jù)庫的作用相對較為被動,其服務(wù)的對象主要為政府、大型企業(yè)等,諸如銀行以及超市等主要進行經(jīng)營活動而產(chǎn)生的數(shù)據(jù)交易記錄;第二,主動產(chǎn)生階段。伴隨著互聯(lián)網(wǎng)技術(shù)的騰飛發(fā)展,社會經(jīng)濟活動日漸頻繁,相應(yīng)的也會產(chǎn)生大量的數(shù)據(jù)信息。同時在這大量的數(shù)據(jù)信息中包含著大量的用戶原創(chuàng)性信息內(nèi)容,其主要借助QQ日志、微博、博客以及微信等方式到網(wǎng)絡(luò)上。此外智能化電子產(chǎn)品的誕生,為人們這些原創(chuàng)信息提供了便利。因此,該階段所產(chǎn)生的數(shù)據(jù)信息量不僅數(shù)量巨大,且多是主動產(chǎn)生的。第三,自動產(chǎn)生階段。隨著大數(shù)據(jù)時代的到來,使得數(shù)據(jù)開始進行自動產(chǎn)生。主要原因在于移動通信網(wǎng)絡(luò)和物聯(lián)網(wǎng)之間得到了有效融合,從而推動數(shù)據(jù)自動產(chǎn)生,并直接推動者大數(shù)據(jù)時代的到來。大數(shù)據(jù)技術(shù)主要具備如下幾個特點:及時,需要處理規(guī)模相對較大的數(shù)據(jù)。大數(shù)據(jù)技術(shù)通常需要處理PB級甚至是EB級的數(shù)據(jù)量。第二,數(shù)據(jù)非結(jié)構(gòu)化。在大數(shù)據(jù)時代,非結(jié)構(gòu)化的數(shù)據(jù)迅速增加,高達數(shù)據(jù)總量的80%左右。第三,多源異構(gòu)。由于基于物聯(lián)網(wǎng)環(huán)境下,大數(shù)據(jù)多運用傳感器、移動設(shè)備等異構(gòu)終端來進行數(shù)據(jù)的采集,這樣很容易導(dǎo)致數(shù)據(jù)出現(xiàn)多源異構(gòu)特點。第四,數(shù)據(jù)處理的實時性。生活節(jié)奏的變快使得人們需要快速處理各種信息數(shù)據(jù),因此在線實時處理數(shù)據(jù)則是大數(shù)據(jù)時代的另一重要特點。

2大數(shù)據(jù)處理的關(guān)鍵技術(shù)

在移動通信網(wǎng)絡(luò)中,尤其是物聯(lián)網(wǎng)中,很多終端設(shè)備都是處在無人監(jiān)控狀態(tài)下,加之這些終端設(shè)備所處環(huán)境大多較為惡劣,因此在物聯(lián)網(wǎng)進行數(shù)據(jù)采集時,往往會出現(xiàn)很多錯誤,因而收集到的原始數(shù)據(jù)就缺乏性,譬如采集的一些數(shù)據(jù)會和實際產(chǎn)生一定誤差,一些數(shù)據(jù)收集不完整,又或者是一些數(shù)據(jù)是無關(guān)多余的。因此,這就需要通過各種方式來提取所需的數(shù)據(jù)。就當前來看,有許多數(shù)據(jù)清洗技術(shù),然而這些數(shù)據(jù)只適用于較強結(jié)構(gòu)化的數(shù)據(jù),大數(shù)據(jù)又是非結(jié)構(gòu)性,因而并不能起到很好的作用。而且利用該技術(shù)也無法處理大量數(shù)據(jù),這就難以體現(xiàn)大數(shù)據(jù)的實時性。因此,在大數(shù)據(jù)清洗技術(shù)的研究方面還需要進一步研究。大數(shù)據(jù)有非常多的來源,將收集到的各方數(shù)據(jù)融合在一起對于數(shù)據(jù)分析相當重要。數(shù)據(jù)融合就是收集到的數(shù)據(jù)源是不一樣的,這些數(shù)據(jù)要通過不同表象來表達實體,這就需要將數(shù)據(jù)轉(zhuǎn)換成為對同一個表象的表達,減少相關(guān)數(shù)據(jù)產(chǎn)生沖突的過程。在移動通信網(wǎng)絡(luò)當中,數(shù)據(jù)的多源性比較普遍,因而對數(shù)據(jù)進行統(tǒng)一十分必要,讓各數(shù)據(jù)之間產(chǎn)生關(guān)聯(lián)。這就要使結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)發(fā)生關(guān)聯(lián),再以數(shù)據(jù)融合來提取關(guān)鍵數(shù)據(jù)。經(jīng)過一系列處理之后,就要分析所獲得的大數(shù)據(jù),并挖掘出新的數(shù)據(jù)。要將移動通信網(wǎng)絡(luò)中的大數(shù)據(jù)分析和挖掘出來就要從數(shù)據(jù)表示和存儲兩個方面給予充分考慮。其中,要借助先進的挖掘工具,并改善數(shù)據(jù)開發(fā)環(huán)境。另外一項大數(shù)據(jù)處理關(guān)鍵技術(shù)是利用可視化來進行數(shù)據(jù)分析。眾所周知,移動通信網(wǎng)絡(luò)有著十分龐大的數(shù)據(jù)量,其挖掘結(jié)果也是大數(shù)據(jù),通過可視化分析這些大數(shù)據(jù)可以讓人們對這些數(shù)據(jù)更加容易的理解,進而更深入來分析這些數(shù)據(jù);并且對數(shù)據(jù)進行可視化分析,能夠促進人機交互的開展,利用人機交互來處理大數(shù)據(jù)可極大的提升數(shù)據(jù)處理能力和工作效率。當然,移動通信網(wǎng)絡(luò)當中大數(shù)據(jù)的處理不僅僅局限于上述挑戰(zhàn),安全問題也是大數(shù)據(jù)處理所面臨的重要問題,因此需加強數(shù)據(jù)管理,不斷提升數(shù)據(jù)處理技術(shù)水平,最終實現(xiàn)大數(shù)據(jù)有效管理。

3云計算

經(jīng)分析可以看出,移動通信網(wǎng)絡(luò)大數(shù)據(jù)處理有兩大趨勢,主要是數(shù)據(jù)量驟增以及分析深度加劇。這對于移動通信網(wǎng)絡(luò)大數(shù)據(jù)的處理來講無疑是一大挑戰(zhàn)。而云計算的出現(xiàn)則讓移動通信網(wǎng)絡(luò)大數(shù)據(jù)處理有了新的思路。2004年,Google就提出了MapReduce技術(shù)來作為處理大數(shù)據(jù)分析和處理的計算模型,此舉一出立刻引起了廣泛關(guān)注。MapReduce技術(shù)包含了三個層面,即分布式文件系統(tǒng)、并行編程模型以及并行執(zhí)行引擎。MapReduce技術(shù)的出現(xiàn)引起了各方面關(guān)注,而在運行中,慢慢發(fā)現(xiàn)其很多不足之處,譬如不支持Schema、沒有存取優(yōu)化以及依靠蠻力來處理數(shù)據(jù)等等。針對MapReduce當中的不足,研究人員進行了深入研究,對其性能進行了相應(yīng)提升,并對易用性進行了一定的改進,經(jīng)過實踐證明,MapReduce是分析和處理大數(shù)據(jù)的一種有效工具,但是在進行大數(shù)據(jù)處理過程中,MapReduce依舊有著缺陷和不足。就大數(shù)據(jù)處理模式角度而言,流處理和批處理是其中最為重要的模式。MapReduce只可以運用批處理模式來處理大數(shù)據(jù)。然而實際狀況是,眾多的社交網(wǎng)站和電子商務(wù)均需要進行在線處理,而MapRe-duce卻只能愛莫能助。綜上,移動通信網(wǎng)絡(luò)所產(chǎn)生的數(shù)據(jù)量不斷增多,這些數(shù)據(jù)為社會帶來了便利,然而也面臨著大量數(shù)據(jù)要處理的現(xiàn)實問題。對此應(yīng)用大數(shù)據(jù)處理關(guān)鍵技術(shù)來解決越來越多的數(shù)據(jù)難題,盡管還存在一些不足,但相信在科技的發(fā)展下這種情況會得到有效改善。

作者:賈麗華 單位:沈陽電信工程局

大數(shù)據(jù)處理論文:大數(shù)據(jù)時代下的電力自動化系統(tǒng)數(shù)據(jù)處理

摘 要:我國電力市場發(fā)展度較快,電力系統(tǒng)也正逐步向自動化邁進,并且在運行過程中產(chǎn)生了大量數(shù)據(jù),我們將其稱之為"大數(shù)據(jù)時代"。本文主要闡述了電力自動系統(tǒng)在運行過程中產(chǎn)生的具體數(shù)據(jù)情況,并分析了基于大數(shù)據(jù)時代背景下如何做好電力數(shù)據(jù)處理工作。

關(guān)鍵詞:大數(shù)據(jù)時代;電力自動化系統(tǒng);數(shù)據(jù)處理

電力自動化數(shù)據(jù)的處理工作中,要針對不同的數(shù)據(jù)類型以及系統(tǒng)不同部分對數(shù)據(jù)的不同要求建立起對應(yīng)的系統(tǒng)數(shù)據(jù)資源處理體系。通過建立并整合綜合數(shù)據(jù)庫、完成電力系統(tǒng)安全防護規(guī)范、形成完善的調(diào)度數(shù)據(jù)體現(xiàn)功能等實現(xiàn)對電力自動化系統(tǒng)中數(shù)據(jù)的有效處理。

一、電力自動化系統(tǒng)的類型分類

1.基礎(chǔ)型數(shù)據(jù):主要是與電力自動化系統(tǒng)中的電力設(shè)施設(shè)備屬性相關(guān)的數(shù)據(jù),如,發(fā)電機、變壓器等電力設(shè)施設(shè)備的基礎(chǔ)數(shù)據(jù)。對于這些數(shù)據(jù)一般是電力單位根據(jù)相關(guān)的數(shù)據(jù)規(guī)劃各自進行管理,并通過相關(guān)數(shù)據(jù)服務(wù)器對其數(shù)據(jù)進行數(shù)據(jù)同步,便于調(diào)度中心對這些數(shù)據(jù)進行集中存儲、整理和相關(guān)計算。

2.實時數(shù)據(jù):大多數(shù)是在電力系統(tǒng)運行過程中進行實時采集的數(shù)據(jù),其數(shù)據(jù)量很大,對存儲空間的要求比較高。這些數(shù)據(jù)是在電力系統(tǒng)運行過程中產(chǎn)生的,通過對其進行糾錯處理后,能夠為調(diào)度部門或市場運營提供決策參考依據(jù)。目前,我國電力自動化系統(tǒng)在實時數(shù)據(jù)處理方面比較成熟,對收集到的實時數(shù)據(jù)不需要進行相關(guān)的處理,只需要在數(shù)據(jù)輸入、輸出過程中建立一個穩(wěn)定的接口即可。

3.日常管理的數(shù)據(jù):主要是在電力系統(tǒng)運行過程中對各種相關(guān)數(shù)據(jù)進行統(tǒng)計,各部門對在工作中遇到的問題進行相關(guān)處理后的數(shù)據(jù)信息。一般情況下,這些數(shù)據(jù)只需要在特定的范圍內(nèi)進行同步和共享即可。在電力系統(tǒng)運行過程中,建立這一類型數(shù)據(jù)同步和共享的數(shù)據(jù)平臺是十分必要的。主要原因表現(xiàn)在以下幾個方面:①這些日常管理的數(shù)據(jù)在某種程度上反映電力系統(tǒng)中電力設(shè)施設(shè)備的運行情況;②方便電力系統(tǒng)中各個部門對日常管理數(shù)據(jù)的獲取,以便更好的開展部門工作。

4.市場經(jīng)濟數(shù)據(jù):隨著市場經(jīng)濟的發(fā)展,電力系統(tǒng)的經(jīng)濟效益越來越突出,電力系統(tǒng)運行中的相關(guān)數(shù)據(jù)對電力單位的發(fā)展具有重要影響,將其作為經(jīng)濟性數(shù)據(jù)十分有必要。市場經(jīng)濟數(shù)據(jù)對城市建設(shè)規(guī)劃中的電力規(guī)劃有很重要的決策參考依據(jù)。市場經(jīng)濟數(shù)據(jù)具有非常大的擴展空間,其數(shù)據(jù)規(guī)劃的重點將是實時數(shù)據(jù)。

二、電力系統(tǒng)化系統(tǒng)中數(shù)據(jù)的獲取

電力系統(tǒng)化系統(tǒng)中數(shù)據(jù)的獲取就是整個數(shù)據(jù)的采集過程。在電力自動化系統(tǒng)中,主要包括了數(shù)據(jù)采集、數(shù)據(jù)處理以及數(shù)據(jù)轉(zhuǎn)發(fā)三個環(huán)節(jié)。在電力系統(tǒng)中,實現(xiàn)數(shù)據(jù)傳輸是進行數(shù)據(jù)獲取與采集的重要目的。在進行數(shù)據(jù)傳輸過程中,可以采用有限傳輸與無線傳輸兩種方式進行。在采用有限傳輸?shù)倪^程中,主要通過使用電纜或者光纖進行傳輸。而在無線傳輸過程中,則可以使用微波或者無線擴頻的方式進行傳送。由于有限傳輸信號穩(wěn)定,因此,在電力自動化系統(tǒng)當中主要是使用有線傳輸方式。但是,由于無線傳輸方式能夠減少線路的鋪設(shè)工作量,而且在較為偏遠的地區(qū)能夠方便的采集數(shù)據(jù),而使得其在部分地區(qū)得到廣泛應(yīng)用。

三、電力自動化系統(tǒng)中的數(shù)據(jù)處理

3.1數(shù)據(jù)共享

數(shù)據(jù)共享的主要方式主要包括以下幾種:(1)內(nèi)存數(shù)據(jù)庫。利用內(nèi)存數(shù)據(jù)庫有著安全性高、訪問速度快和結(jié)構(gòu)靈活的特點,但是也存在著一些問題,那就是其開放性較低。(2)利用網(wǎng)絡(luò)進行通訊。網(wǎng)絡(luò)通訊的方式有UDP、TCP、IP等,在對數(shù)據(jù)進行打包發(fā)送的過程中,網(wǎng)絡(luò)通訊的方式相應(yīng)速度較快,而且數(shù)據(jù)在處理的過程中,使用的是二進制的方式,這種方式在編程的時候較為復(fù)雜。(3)直接內(nèi)存訪問。利用直接內(nèi)存訪問的方式進行共享,有著傳輸速度較高、進入的速度較快的特點,但是在數(shù)據(jù)處理的過程中,對于整個系統(tǒng)的安全性會造成一定的影響。電力自動化系統(tǒng)使用的是DCOM技術(shù)來進行內(nèi)存數(shù)據(jù)庫的訪問的,例如,遠程主機在進行數(shù)據(jù)共享的過程中,可以使用網(wǎng)絡(luò)映射的方式將遠程主機進行映射,使其映射到本地的磁盤中,這樣是便于數(shù)據(jù)的下載與更新的。

3.2數(shù)據(jù)流

數(shù)據(jù)流也是電力自動化系統(tǒng)運行中十分重要的組成部分,在數(shù)據(jù)處理中扮演著關(guān)鍵性得角色。隨著計算機技術(shù)和網(wǎng)絡(luò)技術(shù)的快速發(fā)展,數(shù)據(jù)流呈現(xiàn)出了連續(xù)性、順序性和實時性,整個過程的起點是在數(shù)據(jù)進入到了系統(tǒng)中開始,而數(shù)據(jù)在流動的過程中,那么信息的流動策略就會與整個系統(tǒng)的功能有著緊密的聯(lián)系。隨著電力自動化技術(shù)的不斷提高,電力系統(tǒng)在運行的過程中,數(shù)據(jù)量在逐漸的增加,整個系統(tǒng)結(jié)構(gòu)也變得越來越復(fù)雜,必須要對相應(yīng)的數(shù)據(jù)量進行科學的分析,這樣才能夠合理的部署,提高數(shù)據(jù)傳輸?shù)男?,使?shù)據(jù)流在運行的過程中,能夠充分的保障其性、安全性和實時性。數(shù)據(jù)流技術(shù)在處理的過程中,一定要將接口的統(tǒng)一性進行相應(yīng)的處理,在這樣的情況下,就要充分的解決各個子系統(tǒng)之間的在接口統(tǒng)一性上的問題。

3.3電力自動化系統(tǒng)中的數(shù)據(jù)整合

電力自動化系統(tǒng)的建立及發(fā)展是基于“建立調(diào)度綜合數(shù)據(jù)應(yīng)用與交換平臺,規(guī)范和整合調(diào)度系統(tǒng)數(shù)據(jù)”的基本要求,通過數(shù)據(jù)讓你過河、功能完善等方式使得不同的專業(yè)技術(shù)以及信息安全技術(shù)在系統(tǒng)中得到應(yīng)用和體現(xiàn)。同時,電力自動化系統(tǒng)的整合工作必須基于國家電網(wǎng)調(diào)度系統(tǒng)的數(shù)據(jù)整合原則及基本工作框架進行。當前,系統(tǒng)建設(shè)的主要目標在于建立一個綜合數(shù)據(jù)庫、形成一個與電力二次系統(tǒng)安全防護要求相一致的信息交換體系,實現(xiàn)通用調(diào)度數(shù)據(jù)的體現(xiàn)。在具體的實施過程中,可以采取如下步驟進行:(1)基于既有系統(tǒng)開發(fā)多種分散數(shù)據(jù)的采集與整合工具,形成統(tǒng)一數(shù)據(jù)規(guī)格的管理規(guī)范,建立一個基于對象的數(shù)據(jù)處理數(shù)學模型,進而實現(xiàn)系統(tǒng)信息的相互關(guān)聯(lián),實現(xiàn)信息區(qū)域的管理中心。(2)利用通用調(diào)度數(shù)據(jù)展現(xiàn)技術(shù)給電力自動化系統(tǒng)用戶提供便捷的數(shù)據(jù)分析、加工及理途徑。同時,開發(fā)并實現(xiàn)基于用戶自定義規(guī)則的調(diào)度數(shù)據(jù)綜合處理信息系統(tǒng),實現(xiàn)對數(shù)據(jù)的重復(fù)利用。(3)開發(fā)橫向調(diào)度數(shù)據(jù)接口技術(shù),通過完善并統(tǒng)一對外調(diào)度接口的方式,避免出現(xiàn)數(shù)據(jù)多重交叉的以及重復(fù)輸出問題。(4)形成上、下級縱向調(diào)度數(shù)據(jù)的標準接口,構(gòu)建起廣域范圍中的金字塔式形式的立體數(shù)據(jù)體系。

四、智能電網(wǎng)

1.智能電網(wǎng)中的網(wǎng)絡(luò)拓撲結(jié)構(gòu)

智能電網(wǎng)中的網(wǎng)絡(luò)拓撲結(jié)構(gòu)具有堅強、靈活的特點,能夠有效的解決電力系統(tǒng)中能源和生產(chǎn)力分布不均勻的問題,滿足電力企業(yè)大規(guī)模生產(chǎn)運輸過程中產(chǎn)生大規(guī)模數(shù)據(jù)的處理功能,實現(xiàn)資源的優(yōu)化配置,減少電能損耗。同時,智能電網(wǎng)中的網(wǎng)絡(luò)拓撲結(jié)構(gòu)能夠有效的應(yīng)對一些自然災(zāi)害,如雨、雪等。

2.開放、標準、集成的通信系統(tǒng)

智能電網(wǎng)能夠?qū)﹄娏ψ詣踊到y(tǒng)進行及時有效的監(jiān)控,主要在其具有識別故障早期征兆的預(yù)測能力和對故障做出相關(guān)的相應(yīng)的能力。智能電網(wǎng)是電力自動化企業(yè)的發(fā)展方向,能夠為電網(wǎng)規(guī)劃、建設(shè)和運行管理提供的數(shù)據(jù)信息,有利于大數(shù)據(jù)時代下電力自動化運行系統(tǒng)的穩(wěn)定、安全和高效的運行。

結(jié)語

自動化系統(tǒng)的正常運行,一定要充分考慮到系統(tǒng)運行中數(shù)據(jù)信息的數(shù)量信息,便于數(shù)據(jù)的維修和存儲空間的無限擴展。文章主要是分析了自動化系統(tǒng)的數(shù)據(jù)類型,并且對其進行了詳盡的分析,對于相關(guān)問題進行了闡述,給電力自動化系統(tǒng)提供了更加廣闊的空間,并探究了智能電網(wǎng)在電力自動化運行系統(tǒng)中運行的優(yōu)勢和未來的發(fā)展方向。

大數(shù)據(jù)處理論文:大數(shù)據(jù)處理平臺比較研究

摘要:大數(shù)據(jù)環(huán)境下,傳統(tǒng)的數(shù)據(jù)處理方式不再適用,以云計算技術(shù)為支撐的大數(shù)據(jù)處理平臺應(yīng)運而生。比較了開源Hadoop和Spark平臺各自的優(yōu)缺點,發(fā)現(xiàn)各自的適用范圍:Hadoop適用于數(shù)據(jù)密集型任務(wù),并廣泛應(yīng)用于離線分析;Spark因其基于內(nèi)存計算,在迭代計算和實時分析領(lǐng)域占據(jù)優(yōu)勢。二者在功能上有較強的互補性,協(xié)同使用可以發(fā)揮更大效益。

1大數(shù)據(jù)處理平臺

1.1大數(shù)據(jù)特點

目前,大數(shù)據(jù)還沒有一個標準定義,但是把握大數(shù)據(jù)的特征,有助于加深對大數(shù)據(jù)內(nèi)涵的理解。數(shù)據(jù)具有的3V特征,即規(guī)模大(Volume)、種類多(Variety)、速度快(Velocity)。規(guī)模大,意味著數(shù)據(jù)量不斷擴張,數(shù)據(jù)量級從現(xiàn)在的GB、TB增長到PB、EB甚至ZB級;種類多,指數(shù)據(jù)類型有結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化,其中文字、圖片、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)占很大比例;速度快,表示大數(shù)據(jù)有強時效性,數(shù)據(jù)快速產(chǎn)生,需要及時處理及分析才能實現(xiàn)大數(shù)據(jù)的經(jīng)濟價值。 大數(shù)據(jù)的處理過程為數(shù)據(jù)抽取與集成、數(shù)據(jù)分析以及數(shù)據(jù)解釋 [1]。巨量的數(shù)據(jù)往往也意味著噪聲較多,這給數(shù)據(jù)清洗工作造成困難。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫處理對象單位通常為MB,適合處理存儲結(jié)構(gòu)化數(shù)據(jù),而面向大數(shù)據(jù)的數(shù)據(jù)庫技術(shù)能夠解決海量的非結(jié)構(gòu)數(shù)據(jù)存儲問題。傳統(tǒng)的數(shù)據(jù)分析方法以算法的率作為重要的衡量指標,而大數(shù)據(jù)的高速性要求算法必須犧牲一部分性以更高效地處理數(shù)據(jù)。

1.2大數(shù)據(jù)處理平臺

為從規(guī)模巨大、種類繁多、生成快速的數(shù)據(jù)集中挖掘價值[2],針對大數(shù)據(jù)的技術(shù)和方法應(yīng)運而生。GFS、NoSQL、ITHbase、MapReduce等云計算技術(shù)發(fā)展,使大數(shù)據(jù)有效存儲、管理和分析成為可能。但從眾多復(fù)雜的大數(shù)據(jù)技術(shù)中進行選擇,并搭建完備的大數(shù)據(jù)處理框架難度很高,不利于挖掘大數(shù)據(jù)中的經(jīng)濟價值。大數(shù)據(jù)平臺能在用戶不了解架構(gòu)底層細節(jié)的情況下,開發(fā)大數(shù)據(jù)應(yīng)用程序。全球經(jīng)驗豐富的科技巨頭紛紛提出了建設(shè)與應(yīng)用大數(shù)據(jù)處理平臺:IBM公司推出了云端版InfoSphere BigInsights[3];HP推出了HP Vertica6.1分析平臺[4];Google提出的GFS、MapReduce等云計算技術(shù)催生了大數(shù)據(jù)處理平臺的事實標準Hadoop。目前,Google使用的是自己開發(fā)的Caffeine[2];Facebook結(jié)合自身需求實現(xiàn)了Corona、Prism。完備、高效的大數(shù)據(jù)處理平臺為大數(shù)據(jù)應(yīng)用提供一站式基礎(chǔ)服務(wù),支持應(yīng)用系統(tǒng)從清洗、集成、分析到結(jié)果可視化展現(xiàn)全過程建設(shè),降低了用戶技術(shù)門檻[5]。

2大數(shù)據(jù)處理平臺比較

Hadoop的支撐技術(shù)(MapReduce等)成熟,實現(xiàn)了海量數(shù)據(jù)分布式存儲和批量處理,應(yīng)用廣泛,成為大數(shù)據(jù)處理平臺的事實標準。Spark以其近乎實時的性能和相對靈活易用而受到歡迎,它同Hadoop一樣都是Apache旗下的開源集群系統(tǒng),是目前發(fā)展最快的大數(shù)據(jù)處理平臺之一。

2.1Hadoop與Spark比較

2.1.1Hadoop及特c Hadoop是由Apache開發(fā)的開源云計算平臺,實現(xiàn)在大量計算機組成的集群中進行分布式存儲和計算。Hadoop框架最核心的技術(shù)是HDFS和MapReduce。HDFS是可部署在廉價機器上的分布式文件系統(tǒng),采用主/從結(jié)構(gòu),將大文件分割后形成大小相等的block復(fù)制3份,分別存儲在不同節(jié)點上,實現(xiàn)了海量數(shù)據(jù)存儲。MapReduce編程模型實現(xiàn)大數(shù)據(jù)處理,它的核心是“分而治之”[1]。Map任務(wù)區(qū)將輸入數(shù)據(jù)源分塊后,分散給不同的節(jié)點,通過用戶自定義的Map函數(shù),得到中間key/Value集合,存儲到HDFS上。Reduce任務(wù)區(qū)從硬盤上讀取中間結(jié)果,把相同K值數(shù)據(jù)組織在一起,再經(jīng)過用戶自定義的Reduce函數(shù)處理,得到并輸出結(jié)果;將巨量資料的處理并行運行在集群上,實現(xiàn)對大數(shù)據(jù)的有效處理。 Hadoop具有如下優(yōu)點[69]: (1)高擴展性。Hadoop的橫向擴展性能很好,海量數(shù)據(jù)能橫跨幾百甚至上千臺服務(wù)器,而用戶使用時感覺只是面對一個。大量計算機并行工作,對大數(shù)據(jù)的處理能在合理時間內(nèi)完成并得以應(yīng)用,這是傳統(tǒng)單機模式無法實現(xiàn)的。 (2)高容錯性。從HDFS的設(shè)計可以看出它通過提供數(shù)據(jù)冗余的方式提供高性。當某個數(shù)據(jù)塊損壞或丟失,NameNode就會將其它DataNode上的副本進行復(fù)制,保障每塊都有3份。所以,在數(shù)據(jù)處理過程中,當集群中機器出現(xiàn)故障時計算不會停止。 (3)節(jié)約成本。首先,Hadoop本身是開源軟件,免費;其次,它可以部署在廉價的PC機上;“把計算推送給數(shù)據(jù)”的設(shè)計理念,節(jié)省了數(shù)據(jù)傳輸中的通信開銷。而傳統(tǒng)的關(guān)系型數(shù)據(jù)庫將所有數(shù)據(jù)存儲起來,成本高昂,這不利于大數(shù)據(jù)產(chǎn)業(yè)發(fā)展。 (4)高效性。Hadoop以簡單直觀的方式解決了大數(shù)據(jù)處理中的儲存和分析問題。數(shù)據(jù)規(guī)模越大,相較于單機處理Hadoop的集群并行處理優(yōu)勢越明顯。 (5)基礎(chǔ)性。對于技術(shù)優(yōu)勢企業(yè),可以根據(jù)基礎(chǔ)的Hadoop結(jié)合應(yīng)用場景進行二次開發(fā),使其更適合工作環(huán)境。比如,F(xiàn)acebook從自身應(yīng)用需求出發(fā),構(gòu)建了實時Hadoop系統(tǒng)。 Hadoop系統(tǒng)局限性 [1011]:①不適合迭代運算。MapReduce要求每個運算結(jié)果都輸出到HDFS,每次初始化都要從HDFS讀入數(shù)據(jù)。在迭代運算中,每次運算的中間結(jié)果都要寫入磁盤,Hadoop在執(zhí)行每一次功能相同的迭代任務(wù)時都要反復(fù)操作I/O,計算代價很大。而對于常見的圖計算和數(shù)據(jù)挖掘等,迭代計算又是必要的;②實時性差。Hadoop平臺由于頻繁的磁盤I/O操作,大大增加了時間延遲,不能勝任快速處理任務(wù);③易用性差。Hadoop只是一個基礎(chǔ)框架,精細程度有所欠缺,如果要實現(xiàn)具體業(yè)務(wù)還需進一步開發(fā)。MapReduce特定的編程模型增加了Hadoop的技術(shù)復(fù)雜性。

2.1.2Spark及特點 Spark的整個生態(tài)系統(tǒng)稱為BDAS(伯克利數(shù)據(jù)分析棧),包括Tachyon、Spark Streaming、Spark Core、MLlib等。其核心框架Spark是為了實現(xiàn)大數(shù)據(jù)的快速處理而設(shè)計的,可以用來構(gòu)建低延遲應(yīng)用。Spark以RDD(彈性分布數(shù)據(jù)集)為基礎(chǔ),實現(xiàn)了基于內(nèi)存的大數(shù)據(jù)計算。RDD是對數(shù)據(jù)的基本抽象,實現(xiàn)了對分布式內(nèi)存的抽象使用。由于RDD能緩存到內(nèi)存中,因此避免了過多的磁盤I/O操作,大大降低了時延。Tachyon是分布式內(nèi)存文件系統(tǒng),類似于內(nèi)存中的HDFS,基于它可以實現(xiàn)RDD或文件在計算機集群中共享。Spark沒有自己的文件系統(tǒng),通過支持Hadoop HDFS、HBase等進行數(shù)據(jù)存儲。Spark更專注于計算性能,其特點如下[1113]: (1)高速性。Spark通過內(nèi)存計算減少磁盤I/O開銷,極大縮小了時間延遲,能處理Hadoop無法應(yīng)對的迭代運算,在進行圖計算等工作時表現(xiàn)更好。高速數(shù)據(jù)處理能力使得Spark更能滿足大數(shù)據(jù)分析中實時分析的要求。 (2)靈活性。較之僅支持map函數(shù)和reduce函數(shù)的Hadoop,Spark支持map、reduce、filter、join、count等近80多種操作類型。Spark的交互模式使用戶在進行操作時能及時獲得反饋,這是Hadoop不具備的。Spark SQL能直接用標準SQL語句在Spark上進行大數(shù)據(jù)查詢,簡單易學。盡管在Hadoop中有Hive,可以不用Java來編寫復(fù)雜的MapReduce程序,但是Hive在MapReduce上的運行速度卻達不到期望程度。

2.1.3Hadoop與Spark特點比較分析 Hadoop具有高擴展性、高容錯性、成本低、高效性、不適合迭代運算、實時性差、易用性差等特點,與之相比,Spark最突出的特點是高速性和靈活性,基于這些特點分析總結(jié)如下:Hadoop更注重存儲性能,而Spark更專注于計算,可以形象地將二者的處理方式比作“大砍刀”和“剔骨刀”,前者可以勝任更加繁重的任務(wù),但難免粗糙,后者則勝在快速、靈巧上。

2.2Hadoop與Spark應(yīng)用場景比較

2.2.1Hadoop應(yīng)用場景 Hadoop的高擴展性、高容錯性、基礎(chǔ)性等優(yōu)點,決定了其適用于龐大數(shù)據(jù)集控制、數(shù)據(jù)密集型計算和離線分析等場景。針對Hadoop的局限性,為提高Hadoop性能,各種工具應(yīng)運而生,已經(jīng)發(fā)展成為包括Hive、Pig、HBase、Cassandra、YARN等在內(nèi)的完整生態(tài)系統(tǒng)。HBase新型NoSQL數(shù)據(jù)庫便于數(shù)據(jù)管理,Hive提供類似SQL的操作方式進行數(shù)據(jù)分析,Pig是用來處理大規(guī)模數(shù)據(jù)的高級腳本語言……這些功能模塊在一定程度上彌補了Hadoop的不足,降低了用戶使用難度,擴展了應(yīng)用場景。

2.2.2Spark應(yīng)用場景 與Hadoop不同,Spark高速、靈活的特點,決定了它適用于迭代計算、交互式查詢、實時分析等場景,比如,淘寶使用Spark來實現(xiàn)基于用戶的圖計算應(yīng)用[11]。但是,其RDD特點使其不適合異步細粒度更新狀態(tài)的應(yīng)用[1],比如,增量的Web抓取和索引。RDD的特點之一是“不可變”,即只讀不可寫,如果要對RDD中的數(shù)據(jù)進行更新,就要遍歷整個RDD并生成一個新RDD,頻繁更新代價很大。

2.2.3Hadoop與Spark的互補競爭關(guān)系 Hadoop與Spark同櫬笫據(jù)處理平臺,必然在市場中存在一定的競爭替代關(guān)系,二者在功能上有較強的互補性。Hadoop解決了如何將大數(shù)據(jù)儲存起來的問題,Spark在此基礎(chǔ)上考慮的是更快速、易用地實現(xiàn)大數(shù)據(jù)分析,這點從Spark仍采用HDFS作為文件系統(tǒng)就可看出。它們適用于不同的應(yīng)用場景,有時協(xié)同工作會達到更理想的效果,在Spark和Hadoop的許多發(fā)行版(如CDH、MapR、InfoSphere BigInsights)中,它們都已經(jīng)互相支持實現(xiàn)。

3結(jié)語

本文分析了大數(shù)據(jù)的3V特點,論述了大數(shù)據(jù)處理與傳統(tǒng)數(shù)據(jù)處理的不同,指出了傳統(tǒng)處理方式在大數(shù)據(jù)環(huán)境下的局限性。通過分析常用的大數(shù)據(jù)處理平臺,并分析Hadoop和Spark的核心技術(shù),對其優(yōu)缺點進行了歸納。Hadoop實現(xiàn)了海量異構(gòu)數(shù)據(jù)的存儲和處理,雖然在處理速度和易用性方面存在缺陷,但由于它的基礎(chǔ)性還是得到廣泛應(yīng)用,企業(yè)可根據(jù)自身應(yīng)用特點進行改進。雖然Spark不適合異步細粒度更新狀態(tài)的應(yīng)用,但在處理性能和易用程度上較Hadoop優(yōu)勢顯著,發(fā)展也十分迅速。通過比較兩者的優(yōu)缺點,可以發(fā)現(xiàn)它們在功能上有較強的互補性,協(xié)同使用可以帶來效益優(yōu)化。目前Spark和很多Hadoop發(fā)行版都已經(jīng)互相支持。期望本文對大數(shù)據(jù)處理平臺的選擇、利用和研發(fā)有所啟發(fā)。

大數(shù)據(jù)處理論文:大數(shù)據(jù)處理技術(shù)在智能電網(wǎng)領(lǐng)域中的應(yīng)用研究

【摘要】 文章首先對智能電網(wǎng)和大數(shù)據(jù)處理技術(shù)進行了簡介,進而分析了智能電網(wǎng)的大數(shù)據(jù)特點,提出了大數(shù)據(jù)處理技術(shù)在智能電網(wǎng)領(lǐng)域中的具體應(yīng)用。

【關(guān)鍵詞】 大數(shù)據(jù)處理技術(shù) 智能電網(wǎng) 具體 應(yīng)用

前言:隨著我國工業(yè)的高速發(fā)展以及居民生活的豐富化,目前我國的電力行業(yè)取得了巨大的發(fā)展,跨區(qū)聯(lián)網(wǎng)的規(guī)模處于不斷擴大中。而就電網(wǎng)結(jié)構(gòu)而言,也處于不斷復(fù)雜的趨勢下,存在的不穩(wěn)定因素也越來越多,使用中的風險以及故障的機率特增加了很多。進而大數(shù)據(jù)分析處理技術(shù)得以在電網(wǎng)中使用,實現(xiàn)了電網(wǎng)管理的智能化,提升了電網(wǎng)使用的穩(wěn)定性和安全性。基于此,文章圍繞大數(shù)據(jù)處理技術(shù)在智能電網(wǎng)領(lǐng)域的應(yīng)用為中心,分三部分展開了細致的分析探討,旨在提供一些該方面的理論參考,以下是具體內(nèi)容。

一、智能電網(wǎng)和大數(shù)據(jù)處理技術(shù)簡介

1.1智能電網(wǎng)

所為智能電網(wǎng)指的是以基本的物理電網(wǎng)為基礎(chǔ),通過應(yīng)用目前的現(xiàn)代信息技術(shù)、通信技術(shù)以及計算機處理技術(shù)等技術(shù),同時和傳感測量技術(shù)一控制技術(shù)進行結(jié)合,進而形成的一種高度集成的新型電網(wǎng)。智能電網(wǎng)在電網(wǎng)運輸?shù)陌踩院托陨隙加诤艽蟮谋U?,同時從功能上觀察,也具備電網(wǎng)實時信息的處理、分析、集成、安全以及顯示等諸多功能[1]。

1.2大數(shù)據(jù)處理技術(shù)

所謂大數(shù)據(jù)處理技術(shù)就是對數(shù)量龐大的數(shù)據(jù)進行分析和處理的技術(shù)。目前主要使用的大數(shù)據(jù)處理技術(shù)都是基于互聯(lián)網(wǎng)的云處理技術(shù)的,在社會中的各行各業(yè)中均有得到了廣泛的應(yīng)用。

二、智能電網(wǎng)的大數(shù)據(jù)特點

2.1規(guī)模大

就智能電網(wǎng)所產(chǎn)生的大數(shù)據(jù)而言,其首先存在的一個特點即規(guī)模大。在電網(wǎng)的不斷發(fā)展過程中,其負荷節(jié)點和電機節(jié)電會不斷增加,再加之電網(wǎng)和負荷之間的雙向交互因素的影響,就會大大增加電網(wǎng)數(shù)據(jù)的量,M而所產(chǎn)生和需要儲備的數(shù)據(jù)也就隨之大量增加[2]。

2.2速度快

因為在電網(wǎng)的運作過程中,負荷的波動具有極大的隨機性,因此在電網(wǎng)的隨時監(jiān)測工作上所產(chǎn)生的隨機性就很大。而電網(wǎng)一旦出現(xiàn)故障,導(dǎo)致的進一步事故發(fā)展的速度很快,并且造成的事故損失也會很大,因此智能電網(wǎng)的大數(shù)據(jù)也具有速度快的特點。

2.3多樣性

多樣性也是電網(wǎng)所具備的一個特點之一。因為智能電網(wǎng)在運作過程中,所涉及到的面很多,因此其所產(chǎn)生的數(shù)據(jù),包括內(nèi)部數(shù)據(jù)、外部數(shù)據(jù)等多個方面的數(shù)據(jù),其種類十分繁多。

三、大數(shù)據(jù)處理技術(shù)在智能電網(wǎng)領(lǐng)域中的具體應(yīng)用

3.1支持基建決策

首先大數(shù)據(jù)處理技術(shù)在智能電網(wǎng)的基建決策中起著十分重要的作用。例如可以通過大數(shù)據(jù)處理技術(shù)對電網(wǎng)基建地的天氣系統(tǒng)數(shù)據(jù)進行細致的剖析,并且和電網(wǎng)企業(yè)的發(fā)電機數(shù)據(jù)進行綜合分析。進而根據(jù)企業(yè)所累積的數(shù)據(jù)以及天氣系統(tǒng)所提供的風速、風向以及氣溫、氣壓濕度等數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù),并采用數(shù)據(jù)建模技術(shù),對這些因素可能導(dǎo)致的對電力的影響,進行模式運算,得出電網(wǎng)基建的位置[3]。

3.2進行客戶分析

其次在智能電網(wǎng)中,大數(shù)據(jù)處理技術(shù)還被廣泛的應(yīng)用于對客戶的分析工作中在電網(wǎng)的運作過程中會產(chǎn)生大量的用戶數(shù)據(jù),而通過對這些數(shù)據(jù)的分析和歸類可以對電網(wǎng)用戶群體有一個清晰的認識,進而就可以展開針對性營銷,對于提升電網(wǎng)企業(yè)的市場競爭力具有重要的意義。

3.3實現(xiàn)協(xié)同化管理

從整體上觀察,對于電網(wǎng)企業(yè)而言,其在市場中的運作并不僅僅只涉及到電網(wǎng)企業(yè)一家,和市場的諸多行業(yè)均有一定的涉及,因此要保障電力企業(yè)的發(fā)展就必須和其他行業(yè)的企業(yè)做好協(xié)同工作。通過大數(shù)據(jù)處理技術(shù)的應(yīng)用可以提升行業(yè)之間的聯(lián)系,進而可對行業(yè)的前景有一個動態(tài)的了解。而這不僅僅局限于電力企業(yè)一家,同時對其他和電力行業(yè)密切相關(guān)的企業(yè)也有十分巨大的影響,可促進電力企業(yè)的內(nèi)外共同發(fā)展。

結(jié)束語:綜上所述,智能電網(wǎng)指的是以基本的物理電網(wǎng)為基礎(chǔ),通過應(yīng)用目前的現(xiàn)代信息技術(shù)、通信技術(shù)以及計算機處理技術(shù)等技術(shù),同時和傳感測量技術(shù)一控制技術(shù)進行結(jié)合,進而形成的一種高度集成的新型電網(wǎng)。其在自身的大數(shù)據(jù)上具有規(guī)模大、速度快以及種類多樣的特點。而大數(shù)據(jù)處理技術(shù)在智能電網(wǎng)領(lǐng)域支持基建決策、進行客戶分析、提升智能控制以及實現(xiàn)協(xié)同化管理等多個方面都有十分廣泛的應(yīng)用,是保障智能電網(wǎng)運作穩(wěn)定性和安全性的一個基本技術(shù)。

大數(shù)據(jù)處理論文:基于人臉識別的智能大數(shù)據(jù)處理系統(tǒng)的研究

摘 要:構(gòu)建一個基于人臉識別的智能大數(shù)據(jù)處理系統(tǒng),將圖片中提取的人臉數(shù)據(jù)特征上傳到HBase分布式數(shù)據(jù)庫中進行存儲,使用Mahout提供的推薦、分類等數(shù)據(jù)挖掘算法進行數(shù)據(jù)挖掘,使用Echarts框架將挖掘結(jié)果直觀顯示給用戶。

關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)可視化;數(shù)據(jù)挖掘;數(shù)據(jù)預(yù)處理

1 概述

面對互聯(lián)網(wǎng)絡(luò)的海量數(shù)據(jù),如何提取有用的信息并進行數(shù)據(jù)分析和挖掘就顯得尤為重要。一般置于商場和公共場所的數(shù)字標牌廣告機只具有信息顯示和信息功能,無法了解用戶更多行為,運用先進的人臉識別技術(shù)和視頻智能分析技術(shù)提供一套完善的解決方案,能夠智能統(tǒng)計和分析用戶狀態(tài),幫助了解用戶的喜好。

基于人臉識別技術(shù)設(shè)計一個對人臉信息進行智能處理的系統(tǒng),利用人臉識別技術(shù)統(tǒng)計商家數(shù)字標牌內(nèi)容的觀看人數(shù)、觀看人的性別、年齡等信息,基于收集的數(shù)據(jù)利用大數(shù)據(jù)分析技術(shù)輔助產(chǎn)品提供者制定更加精準、人性化的推廣方案和內(nèi)容。

2 關(guān)鍵技術(shù)簡介

2.1 Hadoop分布式數(shù)據(jù)處理平臺

Hadoop是基于MapReduce數(shù)據(jù)集計算框架對原始的數(shù)據(jù)集進行處理的平臺,可以快速、高效的海量數(shù)據(jù)進行快速處理。

2.2 HBase分布式數(shù)據(jù)

HBase是基于Hadoop平臺的分布式的開源數(shù)據(jù)庫,是一種基于列存儲的、非關(guān)系型的數(shù)據(jù)庫。

2.3 Mahout數(shù)據(jù)挖掘工具

Mahout是Apache旗下的一款數(shù)據(jù)挖掘工具,可以運行在Hadoop平臺上對數(shù)據(jù)進行處理,包含了諸多的挖掘算法,例如:聚類、分類、推薦等,對數(shù)據(jù)處理提供了極大的便利性。

2.4 Echarts數(shù)據(jù)可視化工具

Echarts商業(yè)報表技術(shù)是一個純的JavaScript的圖表庫,其中包含了諸多的商用圖表,例如:折線圖、柱狀圖、散點圖、K線圖、餅圖等等,提供了簡潔、直觀、生動、可交互的數(shù)據(jù)可視化圖表。

2.5 Face++人臉識別技術(shù)

Face++人臉識別技術(shù)可用于對圖片中人臉的檢測、微笑分析以及性別、年齡、種族、面部器官等坐標數(shù)據(jù)的獲取。

3 系統(tǒng)功能描述

基于人臉識別的大數(shù)據(jù)智能處理系統(tǒng)首先通過人臉識別技術(shù)收集信息,利用大數(shù)據(jù)處理技術(shù)分析用戶對內(nèi)容的喜好,為不同性別、年齡、情緒狀態(tài)的用戶提供更加人性化的內(nèi)容,在不同時段投放不同內(nèi)容作出參考依據(jù),為用戶帶來更好體驗同時為投資者帶來更豐厚的回報。具體包括人臉識別和數(shù)據(jù)分析兩部分內(nèi)容。

3.1 人臉識別

(1)人臉檢測:通過攝像頭獲取人臉輪廓,提取特征生成特征數(shù)據(jù)庫。

(2)表情檢測:通過攝像頭判斷當前人臉是否注視攝像頭,可識別睜眼、閉眼、眨眼等動作。

(3)姿態(tài)檢測:通過攝像頭判斷當前人臉是平視、抬頭、低頭、左右轉(zhuǎn)頭等。

3.2 數(shù)據(jù)分析

通過人臉特征的提取,對其中的信息進行分析,根據(jù)統(tǒng)計數(shù)據(jù),給出推薦的廣告位置和投放時間等信息,為商家提供參考依據(jù)。

4 系統(tǒng)構(gòu)建

4.1 系統(tǒng)設(shè)計

針對系統(tǒng)的功能描述,構(gòu)建分布式集群環(huán)境,通過圖片預(yù)處理、數(shù)據(jù)挖掘以及數(shù)據(jù)可視化三大核心模塊,完成系統(tǒng)的構(gòu)建。

(1)圖片預(yù)處理

在數(shù)據(jù)處理前期對圖片進行預(yù)處理,利用Face++人臉識別技術(shù),提取人臉信息,并將其上傳到HBase分布式數(shù)據(jù)庫中進行存儲。

(2)數(shù)據(jù)挖掘

使用Mahout開源的數(shù)據(jù)挖掘框架,進行參數(shù)設(shè)置后調(diào)用推薦、分類算法進行數(shù)據(jù)挖掘工作,獲取挖掘結(jié)果,并將其存放到數(shù)據(jù)庫中。

(3)數(shù)據(jù)可視化

從前臺獲取數(shù)據(jù)庫中存儲的挖掘結(jié)果,使用Echarts可視化工具進行數(shù)據(jù)顯示。

4.2系統(tǒng)實現(xiàn)

(1)人種興趣圖

鼠標放在某一區(qū)域時會顯示該人種所占的比例,點擊下載圖標時可將整個圖表以圖片的形式保存下來。

(2)數(shù)據(jù)分布圖

查看每個區(qū)域的數(shù)據(jù)分布情況,直觀明了。

5 結(jié)束語

本系統(tǒng)可以快速的對大量的人臉數(shù)據(jù)進行處理并提取出有效信息,在數(shù)據(jù)可視化平臺進行數(shù)據(jù)展示,給用戶以直觀、生動的數(shù)據(jù)感受。同時,用戶可以對相關(guān)結(jié)果進行下載、打印等操作。

大數(shù)據(jù)處理論文:Spark 2.0平臺在大數(shù)據(jù)處理中的應(yīng)用研究

摘要摘要:Spark分布式框架具有利用數(shù)據(jù)集內(nèi)存緩存、啟動任務(wù)的低遲延、迭代類運算、實時計算的支持和強大的函數(shù)式編程接口等特征。描述Spark 集群環(huán)境的搭建過程,將Spark 應(yīng)用到預(yù)測森林植被中,對基于RDD和基于Data Frame接口的Spark隨機森林算法的性能差異進行比較。實驗結(jié)果表明,基于Dataset結(jié)構(gòu)的隨機森林法預(yù)測效果好、執(zhí)行時間短,可以廣泛使用。

0引言

數(shù)據(jù)爆炸式增長和隱藏在這些數(shù)據(jù)之后的商業(yè)價值催生了一代又一代的大數(shù)據(jù)處理技術(shù)。2004年Hadoop橫空出世,由Google公司提出的開源的MapReduces的大數(shù)據(jù)處理框架拉開了其在企業(yè)應(yīng)用的序幕,它被視為解決高性能處理大數(shù)據(jù)的有效方案。但是MapReduces框架不僅存在單點故障,而且對實時數(shù)據(jù)和流式數(shù)據(jù)訪問能力弱,導(dǎo)致基于MapReduces框架的Hadoop平臺應(yīng)用推廣受到較大影響。

Apache Spark是另一種分布式、開源計算框架,目的是簡化基于計算機集群的并行程序的編寫。Spark不僅可以發(fā)揮MapReduces對大數(shù)據(jù)的處理能力[1],還可以充分利用數(shù)據(jù)集內(nèi)存緩存、啟動任務(wù)的低遲延、迭代類運算、實時計算的支持和強大的函數(shù)式編程接口[2]。Spark是Apache的頂級開源項目,功能不斷完善?,F(xiàn)在近期版本為Spark 2.10,它集成了基于RDD和DataFrame(Dataset)兩種編程接口。為了簡化編程,方便更多人使用,同時進一步提高數(shù)據(jù)處理速度,Spark 3.0版本會摒棄直接面對用戶的基于RDD編程接口。目前,Spark分布式框架在基于機器學習和迭代處理的大數(shù)據(jù)分析上有廣泛應(yīng)用。

1Spark2.0 基本原理

Spark繼承了MapReduces的線性擴張性和容錯性,同時對它作了一些重量級擴展,主要包括核心數(shù)據(jù)結(jié)構(gòu):RDD(Spark 3.0以后使用Data Frame、Dataset)。

RDD是Spark的核心數(shù)據(jù)結(jié)構(gòu),是一種基于內(nèi)存彈性分布式數(shù)據(jù)集[3]。利用RDD可以把一部分數(shù)據(jù),包括中間結(jié)果緩存在內(nèi)存中,為后續(xù)計算所重復(fù)利用,不需要像其它計算結(jié)構(gòu)需要反復(fù)訪問磁盤,節(jié)省了大量時間。與Hadoop MapReduce相比,其實驗的性能要快100倍,訪問磁盤的性能快10倍[4]。基于DataFrames/Dataset的高層API,利用PipeLine可以方便用戶構(gòu)建和調(diào)試機器學習流水線,完成高效的數(shù)據(jù)處理。RDD(DataFrames、Dataset)數(shù)據(jù)結(jié)構(gòu)解決了MapReduces存在的很多問題。

(1)解決了MapReduces啟動遲緩問題[5]。利用Spark采用的有向無環(huán)圖的任務(wù)調(diào)度機制,可以對多個Stage的Task進行串聯(lián)或并聯(lián)Excutor,無需將每個Stage的中間結(jié)果保存到HDFS,不需要訪問磁盤,因此可以節(jié)省時間。尤其在計算機集群的環(huán)境下,可以避免運算時過量的網(wǎng)絡(luò)和磁盤IO開銷。

(2)支持迭代計算。迭代計算需要訪問相同的數(shù)據(jù)集,采用基于內(nèi)存的RDD/DataFrame/Dataset結(jié)構(gòu)可以避免重新計算和從磁盤加載。

(3)支持實時計算。基于Spark構(gòu)建Spark Straming 是在Spark基礎(chǔ)上的二次開發(fā),主要是將其實時、流水任務(wù)離散化成一系列的DStream的數(shù)據(jù)窗口[6],最小窗口選擇只需要0.5~2s,滿足大多數(shù)的準實時計算場景。

(4)性能優(yōu)化。Dataset API建立在Spark SQL引擎之上,它可以利用Catalyst來優(yōu)化邏輯計劃和物理查詢計劃。而且采用特殊的Encoder,不僅可以有效序列化JVM object,還可以直接被Spark的許多操作,如Filter、Sort、Hash等使用,從而提高執(zhí)行速度。

2Spark2.0在預(yù)測森林植被中的應(yīng)用

目前,Spark支持4種運行模式。本地單機模式、集群模式、基于Mesos、基于YARN、基于EC。本文的Spark分布式集群基于YARN,即Hadoop2。

2.1Spark分布式集群h境搭建

實驗環(huán)境所需的軟硬件設(shè)備如下:

軟件:操作系統(tǒng)采用Ubuntu Server 16.10 版本,Hadoop 2.7 版本,JDK 1.8 版本,虛擬軟件VMware Station Pro 12;硬件:1 臺聯(lián)想臺式機,CPU 是主頻3.4GHz的Intel的酷睿i7,超頻4.2 GHz,硬盤容量1T,內(nèi)存16GB。

Spark集群環(huán)境的搭建過程如下:

(1) 安裝3臺虛擬機,OS版本ubuntu server 16.10 版本,并通過Hostname、Interfaces、Hosts文件分別設(shè)置主機名(Master、Slave1、Slave2)、IP地址,以及DNS映射關(guān)系,執(zhí)行sudo ufw disable、Ping分別關(guān)閉防火墻以及檢驗3臺虛擬機互通無阻。

(2)在每臺虛擬機上安裝JDK、Scala、Hadoop、Spark并配置相關(guān)的Java環(huán)境變量。

(3)在每臺機器上執(zhí)行安裝openssh-server服務(wù),執(zhí)行ssh-keygen生成SSH 密鑰文件,保障相互直接建立不需要密碼的SSH可信通道。

(4)修改Spark目錄下conf/core-site.xml、mapred -site.xml、 yarn-site.xml、hdfs-site.xml、hdfs-env.sh、masters、slaves文件,確保能夠正常啟動Spark。

2.2隨機森林算法預(yù)測森林植被實現(xiàn)

在Spark機器學習中,用于分類的算法有很多,其中效果較好的有SVM和隨機森林算法。隨機森林(Random Forest,RF)是由 Leo Breiman 將 Bagging 集成學習理論[7]與隨機子空間方法[8]相結(jié)合,于2001年提出的一種機器學習算法[9]。RF利用Bootstrap重抽樣方法從原始樣本中多次隨機抽取不同特征的子集數(shù)據(jù)組成訓練樣本,構(gòu)建多棵、合理、獨立的子樹,然后融合多棵決策樹的預(yù)測結(jié)果。在大數(shù)據(jù)背景下,RF不僅能夠與Spark和Map Reduce的并行處理特征結(jié)合,預(yù)測效果好,而且基于Dataset 的執(zhí)行時間要比基于RDD的少。

為了更加深入地了解RF性能,尤其是測試效果,需要在實踐中進行檢驗。本實驗數(shù)據(jù)采用Kaggle大賽的數(shù)據(jù)Forestcover-Type-Prediction,記錄了美國科羅拉多州不同地塊森林植被特征:海拔、坡度、與水源的距離、遮陽情況和土壤類型,并給出了地塊的已知森林植被類型,共54特征,有581012個樣本[10]。本實驗主要比較基于RDD和基于Data Frame[Row]/Dataset API接口的Spark隨機森林算法的性能差異。關(guān)鍵代碼及參數(shù)如下:

2.3性能分析

通過對決策樹、隨機森林模型的impurity、maxDepth、maxBins、minInfoGain、numTrees(只有隨機森林才有此參數(shù))、maxMemoryInMB等參數(shù)進行調(diào)試,對比其性能,找到參數(shù)及模型。下面分別從訓練時間、參數(shù)、預(yù)測效果的Accuracy 3個方面進行比較。

2.3.1尋找參數(shù)訓練時間比較

由表1可以發(fā)現(xiàn),隨機森林算法的訓練時間,無論是基于RDD數(shù)據(jù)結(jié)構(gòu)還是基于Datase結(jié)構(gòu),都要比決策樹算法的訓練時間長。實驗過程中的數(shù)據(jù)也顯示,隨著隨機森林算法的樹深度的加大和樹數(shù)量的增加,訓練時間明顯延長。

2.3.2尋找模型參數(shù)

從表2中可以發(fā)現(xiàn),與決策樹的參數(shù)相比較,隨機森林算法的參數(shù)深度相近,桶數(shù)數(shù)量相差很大,該數(shù)據(jù)為調(diào)試參數(shù)有一定的參考意義。

2.3.3預(yù)測效果Accuracy比較

由表3可知,與決策樹的Accuracy相比,隨機森林算法的Accuracy明顯要高(無論是訓練數(shù)據(jù)、交叉數(shù)據(jù),還是測試數(shù)據(jù))。這說明多棵樹的評價效果比單棵樹的預(yù)測效果好。

3結(jié)語

Spark實現(xiàn)了分布式計算框架,它是采用分布式處理大規(guī)模數(shù)據(jù)的最有效途徑。在搭建好的實驗環(huán)境下,對基于RDD和基于Data Frame[Row]/Dataset API接口的Spark隨機森林算法的性能差異進行了比較,相對而言,基于RDD接口的隨機森林算法的執(zhí)行效率較差。并且將隨機森林算法與決策樹算法比較,更好地體現(xiàn)了隨機森林算法良好的預(yù)測效果,但是訓練的時間進一步延長了。如何在集群環(huán)境中針對數(shù)據(jù)的特性,利用Spark平臺快速找到相應(yīng)的模型并通過調(diào)整模型參數(shù)使預(yù)測效果達到,將是下一步研究的重點。

大數(shù)據(jù)處理論文:大數(shù)據(jù)以及大數(shù)據(jù)處理技術(shù)在醫(yī)院信息化建設(shè)中的應(yīng)用

摘要:在大數(shù)據(jù)技術(shù)不斷發(fā)展的情況下,其在實際生活當中也具有了更廣的應(yīng)用范圍。目前,醫(yī)院積極開展了信息化平臺的建設(shè),要想有效的達成目標,就需要做好大數(shù)據(jù)技術(shù)的應(yīng)用。在本文中,將就大數(shù)據(jù)以及大數(shù)據(jù)處理技術(shù)在醫(yī)院信息化建設(shè)中的應(yīng)用進行一定的研究。

關(guān)鍵詞:大數(shù)據(jù);大數(shù)據(jù)處理技術(shù);醫(yī)院信息化建設(shè);應(yīng)用

在現(xiàn)今信息化時代背景下,各行業(yè)也大力開展了信息化建設(shè)。在醫(yī)院中,實現(xiàn)信息化平臺的建立與應(yīng)用已經(jīng)成為了醫(yī)院加強管理的重要突破口。其中,數(shù)據(jù)挖掘可以說是大數(shù)據(jù)當中的核心技術(shù),通過該技術(shù)的應(yīng)用,將在有效實現(xiàn)醫(yī)院信息化建設(shè)的同時提升工作效果。

1 數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘技術(shù),即在從不、隨機以及大量的數(shù)據(jù)當中將其中不為人知且具有潛在作用知識、信息進行提取的過程。從醫(yī)院角度考慮,其關(guān)鍵數(shù)據(jù)挖掘技術(shù)有:建立數(shù)據(jù)關(guān)聯(lián)模型,了解哪些疾病在哪類病患身上容易并發(fā);對成像儀器(如 B 超、CT 等)的影像數(shù)據(jù)進行挖掘等。這部分數(shù)據(jù)的獲得,對醫(yī)院的發(fā)展具有十分重要的意義,首先,在醫(yī)學領(lǐng)域當中,其具有較多的數(shù)據(jù)資源,且數(shù)據(jù)庫在復(fù)雜程度以及規(guī)模上不斷發(fā)展。在該種情況下,從大量數(shù)據(jù)當中做好有用信息的提取則成為了非常重要的一項工作。其次,在醫(yī)院信息系統(tǒng)中,也具有著大量的臨床信息以及管理信息,如何從這部分數(shù)據(jù)當中挖掘出有價值、深層次的知識,則是醫(yī)院發(fā)展當中的重要課題。而數(shù)據(jù)挖掘技術(shù)則能夠從海量數(shù)據(jù)當中提取有價值的信息,在對未來行為進行預(yù)測的情況下做出具有前瞻性的決策,能夠有效實現(xiàn)醫(yī)院管理能力的提升。

2 應(yīng)用現(xiàn)狀

2.1 現(xiàn)有建設(shè)問題

目前,我國廣泛通過計算機的應(yīng)用實現(xiàn)信息系統(tǒng)的建立,且有醫(yī)院逐漸對微機局域網(wǎng)進行了建設(shè),并實現(xiàn)部分子系統(tǒng)的開發(fā),如機關(guān)事務(wù)處理系統(tǒng)以及門診住院收費系統(tǒng)等。而在大多數(shù)醫(yī)院中,其在對系統(tǒng)數(shù)據(jù)進行處理時,僅僅限于刪除、查詢、修改以及統(tǒng)計這幾方面工作,對于這部分工作而言,其僅僅屬于醫(yī)院數(shù)據(jù)庫當中較低層次的應(yīng)用,并沒有對數(shù)據(jù)實現(xiàn)深層分析與集成,也不能夠自動獲取醫(yī)學知識,并因此對系統(tǒng)的實際應(yīng)用效果產(chǎn)生了較大的影響。在該種情況下,則需要醫(yī)院加強信息化建設(shè),在以系統(tǒng)數(shù)據(jù)庫作為數(shù)據(jù)源的基礎(chǔ)上通過數(shù)據(jù)倉庫技術(shù)的應(yīng)用對信息分析系統(tǒng)進行建立,也正是醫(yī)院現(xiàn)階段發(fā)展中非常重要的一項任務(wù)。

2.2 應(yīng)用情況

目前,我很多醫(yī)院都已經(jīng)逐步建立起了醫(yī)院信息管理系統(tǒng),且在數(shù)據(jù)挖掘急速的應(yīng)用方面也獲得了一定的發(fā)展,在醫(yī)院經(jīng)營目標管理、財務(wù)物資管理、醫(yī)院質(zhì)量管理以及經(jīng)營決策管理方面都具有著十分積極的作用。舉一個簡單的例子,通過數(shù)據(jù)挖掘技術(shù)的應(yīng)用,醫(yī)院則能夠在聯(lián)系就診疾病分類情況的基礎(chǔ)上對科室建設(shè)進行確定,如風濕性關(guān)節(jié)炎、慢性支氣管炎等病癥發(fā)病率近幾年逐漸減少,而部分慢性非傳染病如糖尿病、高血壓以及心腦血管疾病等發(fā)生率逐漸增加等。在做好這部分信息把握之后,醫(yī)院則可以更有目的的實現(xiàn)相應(yīng)設(shè)備的購置,并建立起同其配套的科研中心或者重點實驗室。而在該技術(shù)在醫(yī)院信息化建設(shè)實際應(yīng)用的過程中,也存在著一定的問題,其主要表現(xiàn)為:及時,在部分醫(yī)院中,其信息管理系統(tǒng)的實現(xiàn)目標更多為日常業(yè)務(wù),如結(jié)算、掛號以及收費等,分析功能較為有限,從普通的查詢工具以及報表當中也能夠獲得,并沒有對數(shù)據(jù)挖掘技術(shù)的分析功能進行充分的應(yīng)用;第二,在醫(yī)院不同業(yè)務(wù)部門中,具有大量常用的數(shù)據(jù),但在實際存儲方式上則具有著較大的差異,如FoxPro、Oracle以及Acess等。該種情況的存在,則需要在根據(jù)信息源的不同對不同的分析應(yīng)用進行開發(fā),使醫(yī)院對數(shù)據(jù)綜合應(yīng)用的廣度與深度以此獲得發(fā)展;第三,醫(yī)院在實際對信息系統(tǒng)進行應(yīng)用時,該系統(tǒng)是公司在聯(lián)系具體科室需求的基礎(chǔ)上訂制的,并不能夠使數(shù)據(jù)庫的設(shè)計統(tǒng)一進行實現(xiàn),不僅不同字段在長度、格式以及類型方面無法統(tǒng)一,且部分字段在設(shè)計當中也存在不合理的情況。而在對數(shù)據(jù)倉庫進行建立時,不同數(shù)據(jù)源數(shù)據(jù)也是實際決策分析工作開展的關(guān)鍵,如果以該方式對數(shù)據(jù)信息進行挖掘,則往往會存在問題。

3 應(yīng)用建議

就目前醫(yī)院信息化建設(shè)當中在數(shù)據(jù)挖掘技術(shù)應(yīng)用方面存在的不足,在未來工作中,可以從以下方面做好應(yīng)對與優(yōu)化:

3.1 明確建設(shè)理念

通常情況下,從系統(tǒng)功能角度分析,醫(yī)院信息化建設(shè)可以分為業(yè)務(wù)信息以及管理信息系統(tǒng),在現(xiàn)今醫(yī)院信息系統(tǒng)中,都以聯(lián)機的方式對相關(guān)事務(wù)進行處理,在該處理方式中,管理層只具有數(shù)據(jù)匯總以及報表生成等較為簡單的功能。而在信息管理系統(tǒng)當中數(shù)據(jù)不斷增多的情況,如何通過這部分數(shù)據(jù)的應(yīng)用推動醫(yī)院工作進一步與開展,則成為了現(xiàn)階段醫(yī)院發(fā)展當中需要重點解決的問題。對此,在醫(yī)院信息化建設(shè)當中,就需要先明確基礎(chǔ)指導(dǎo)理念,通過挖掘技術(shù)的科學運用實現(xiàn)自身數(shù)據(jù)庫的構(gòu)建:首先,要從日常業(yè)務(wù)入手進行變革,加強信息流以及資金流等信息的收集,在信息收集完畢之后在存儲以及傳輸過程中其這部分數(shù)據(jù)的電子、網(wǎng)絡(luò)化進行實現(xiàn),做好數(shù)據(jù)的積累與存儲。同時,醫(yī)院的決策者以及管理者也需要做好數(shù)據(jù)挖掘技術(shù)以及數(shù)據(jù)倉庫技術(shù)的應(yīng)用,通過深入理解分析對數(shù)據(jù)庫當中有價值的信息與知識進行獲取,以此不斷實現(xiàn)醫(yī)院經(jīng)營管理水平的提升。

3.2 掌握應(yīng)用原則

要想在工作當中做好數(shù)據(jù)挖掘技術(shù)的應(yīng)用,首先,就需要做好該技術(shù)應(yīng)用流程的把握,在實際對數(shù)據(jù)挖掘技術(shù)進行運用時,其常用步驟有目標的確定以及模式發(fā)現(xiàn)等方面。其中,模式發(fā)現(xiàn)可以說是現(xiàn)階段醫(yī)院數(shù)據(jù)信息工作開展中的核心內(nèi)容,在該內(nèi)容中,其將可以在科學運用數(shù)據(jù)挖掘算法的基礎(chǔ)上對供決策應(yīng)用的各類規(guī)則以及模式進行獲得;其次,要積極探索可視化操作。在技術(shù)應(yīng)用中,能夠?qū)崿F(xiàn)挖掘模型以及相關(guān)數(shù)據(jù)的可視化處理,也將因此影響到數(shù)據(jù)的解釋以及以及挖掘能力。在該種情況下,醫(yī)院則能夠充分應(yīng)用可視化數(shù)據(jù)技術(shù),以此使用戶在數(shù)據(jù)剖析方面具有更為清晰的特點,如可以將數(shù)據(jù)庫當中多為數(shù)據(jù)實現(xiàn)向多種圖形的轉(zhuǎn)變,以此在數(shù)據(jù)潛在規(guī)律以及內(nèi)在本質(zhì)揭示方面發(fā)揮更大的作用。

3.3 挖掘綜合信息

醫(yī)院在運行當中,患者在治療過程中將留下較為復(fù)雜且各異的治療記錄。在該種情況下,通過應(yīng)用數(shù)據(jù)挖掘技術(shù),醫(yī)院則能夠從新的視角觀察相關(guān)數(shù)據(jù),并在做好數(shù)據(jù)觀察的同時深入的挖掘用戶綜合信息。如醫(yī)院可以從具體科室、病人身份以及出院時間等方面觀察醫(yī)院最近一段時間的工作情況,并在住院時間的基礎(chǔ)上繪制病人在院內(nèi)的住院時間頻譜圖,以此對其分布規(guī)律以及集中趨勢進行觀察,此外,還可以將科室為基礎(chǔ),對病人構(gòu)成以及住院變化方面的規(guī)律以及相關(guān)因素在住院方面的影響進行積極的研究,通過數(shù)據(jù)挖掘技術(shù)在該過程當中的應(yīng)用,則能夠在做好患者數(shù)據(jù)把握、深入分析的基礎(chǔ)上為醫(yī)院決策提供服務(wù)。

3.4 提升患者滿意度

在醫(yī)院發(fā)展中,其服務(wù)質(zhì)量以及患者的滿意程度十分關(guān)鍵,不僅將對人的健康水平具有直接的聯(lián)系,同時也是醫(yī)院能夠獲得較好生存發(fā)展、是否具有較高生命力的重要問題,將直接對醫(yī)院經(jīng)營成敗產(chǎn)生影響。通過數(shù)據(jù)挖掘技術(shù)的應(yīng)用,則能夠在醫(yī)院提升患者滿意度方面作出更大的貢獻。如醫(yī)院在工作當中可以做好門診就診人次與各類醫(yī)院設(shè)備應(yīng)用情況的分析,在對醫(yī)院醫(yī)療服務(wù)質(zhì)量進行反映的基礎(chǔ)上將其作為管理人員決策的重要的依據(jù),在對醫(yī)療成本進行降低的基礎(chǔ)上實現(xiàn)醫(yī)院綜合能力的提升。

4 結(jié)語

在網(wǎng)絡(luò)、信息技術(shù)不斷發(fā)展的情況下,使我們都身處在信息化時代當中。在信息化時代中,醫(yī)院在工作當中需要能夠做好大數(shù)據(jù)技術(shù)的重視與應(yīng)用,在提升自身管理水平的基礎(chǔ)上獲得更好的發(fā)展。

大數(shù)據(jù)處理論文:基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺方案設(shè)計研究

摘要:在大數(shù)據(jù)的發(fā)展時代背景下,我國的各行各業(yè)都在致力于將人、物、機等三元世界在網(wǎng)絡(luò)空間中進行交互、融合,以獲得互聯(lián)網(wǎng)上的大數(shù)據(jù)資源。在大數(shù)據(jù)資源的潮流趨勢之下,文章主要圍繞大數(shù)據(jù)的研究現(xiàn)狀、作用意義展開,在此基礎(chǔ)上探索綜合數(shù)據(jù)處理平臺,并對其平臺方案的設(shè)計進行研究,以促進我國信息化社會的建設(shè)。

關(guān)鍵詞:大數(shù)據(jù);綜合數(shù)據(jù)處理;平臺方案設(shè)計;研究

隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)以及云計算等IT技術(shù)的進一步發(fā)展,我國社會的各行各業(yè)都迎來了新的發(fā)展機遇和挑戰(zhàn)。在大數(shù)據(jù)的時代背景下,探索綜合數(shù)據(jù)處理平臺的方案設(shè)計研究,不僅能夠改變我國的經(jīng)濟發(fā)展增長方式,而且還能夠讓各行各業(yè)的發(fā)展跟上時代潮流的發(fā)展步伐,提升我國產(chǎn)業(yè)經(jīng)濟的國際競爭力,促進我國綜合國力的進一步提升。

1 大數(shù)據(jù)的概念及其作用、意義解析

大數(shù)據(jù)是一個高度抽象、凝練的概括詞,各行各業(yè)的專家、學者大多都是根據(jù)自己的理解來對大數(shù)據(jù)進行定義,因此,迄今為止,人們對大數(shù)據(jù)都沒有統(tǒng)一、標準的定義,大數(shù)據(jù)的概念還處于仁者見仁、智者見智的狀態(tài)。

大數(shù)據(jù)指的是所涉及的資料規(guī)模很大,無法通過目前的主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營者進行決策的資訊,這是維基百科對大數(shù)據(jù)的定義??梢钥闯鲈谶@概念中,維基百科對大數(shù)據(jù)的解釋主要側(cè)重點是強調(diào)大數(shù)據(jù)資源的規(guī)模量大的特點,并說明了大數(shù)據(jù)的功能作用是擷取、管理、處理以及整理相關(guān)的信息資源以供企業(yè)使用。從維基百科對大數(shù)據(jù)的定義來看,大數(shù)據(jù)所服務(wù)的對象主要是企業(yè)經(jīng)營者,但就筆者看來,這一定義無可避免地帶有了維基百科本身的局限性。大數(shù)據(jù)并不僅僅是為企業(yè)經(jīng)營者服務(wù)的,任何行業(yè)包括我國的基層政府、公、檢、法等部門都可以使用大數(shù)據(jù)資源來建立綜合數(shù)據(jù)處理平臺,以此對相關(guān)的決策、政策進行分析,為促進我國社會的發(fā)展貢獻力量。

在大數(shù)據(jù)的飛速發(fā)展過程中,其展現(xiàn)了自身的獨特作用和功能,對大數(shù)據(jù)進行精細化的研究,不僅有助于捍衛(wèi)我國的網(wǎng)絡(luò)空間的數(shù)字主權(quán),維護我國的社會穩(wěn)定,推動社會與經(jīng)濟的可持續(xù)化發(fā)展。而且大數(shù)據(jù)在發(fā)展的過程中還能夠極大的推動國民經(jīng)濟核心的產(chǎn)業(yè)信息化升級,突破當前科學、技術(shù)的限制,帶動誕生出數(shù)據(jù)服務(wù)、數(shù)據(jù)材料、數(shù)據(jù)制藥等戰(zhàn)略性新興產(chǎn)業(yè)??v使大數(shù)據(jù)具備了眾多的功能和作用,極大地促進了我國經(jīng)濟社會的發(fā)展,但大數(shù)據(jù)給我國經(jīng)濟社會的發(fā)展所帶來的挑戰(zhàn)也是不容忽視的。大數(shù)據(jù)由于其數(shù)據(jù)類型、數(shù)據(jù)結(jié)構(gòu)以及數(shù)據(jù)內(nèi)在模式都極其的復(fù)雜;數(shù)據(jù)本身、數(shù)據(jù)模型以及數(shù)據(jù)學習的不確定性;數(shù)據(jù)模式、數(shù)據(jù)行為以及智慧的涌現(xiàn)性等現(xiàn)狀使得人們在對大數(shù)據(jù)的使用中存在著諸多的挑戰(zhàn)。基于大數(shù)據(jù)的這些功能作用以及面臨的挑戰(zhàn)特點,對大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺方案進行設(shè)計研究具有重要的現(xiàn)實作用。

2 基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺的方案設(shè)計研究

在大數(shù)據(jù)的時代背景下,建立綜合數(shù)據(jù)處理平臺的首要任務(wù)是要明確平臺建設(shè)的目標。通過運用管理學學科的相關(guān)知識對這些目標進行層次的劃分,將目標進行細化處理,使其成為一個個可供實踐操作的小目標。其次是根據(jù)這些目標的需要,結(jié)合相關(guān)的互聯(lián)網(wǎng)、物聯(lián)網(wǎng)技術(shù)以及數(shù)學分析、建模思想等,構(gòu)建綜合數(shù)據(jù)處理平臺的總體架構(gòu),初步搭建綜合數(shù)據(jù)處理平臺。是對綜合數(shù)據(jù)處理平臺的內(nèi)涵及外延進行填充處理,如對綜合數(shù)據(jù)處理平臺進行技術(shù)架構(gòu)、網(wǎng)架架構(gòu)以及安全架構(gòu)等等,并采取相關(guān)的措施對其進行管理維修,以方便使用。

2.1 基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺設(shè)計的目標分析

由于大數(shù)據(jù)本身所具備的特殊性,構(gòu)建基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺,首先需要的是明確構(gòu)建這一平臺的目標。在筆者看來,構(gòu)建基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺的目標主要有以下幾方面:一是提供各種類型的數(shù)據(jù)信息,在大數(shù)據(jù)概念、內(nèi)涵中都已經(jīng)明確了其功能作用,大數(shù)據(jù)主要是為社會各行各業(yè)的發(fā)展需要提供多元化、便捷化、高速化的服務(wù)。構(gòu)建基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺的目標之一就是收集、分析、整理各種類型的數(shù)據(jù)資源,并將其分門別類地置于綜合數(shù)據(jù)處理平臺上,為廣大用戶群體提供充足的數(shù)據(jù)資料,方便其決策使用。二是創(chuàng)建新型的共享數(shù)據(jù)庫,實現(xiàn)綜合數(shù)據(jù)處理平臺上數(shù)據(jù)的共建共享。在當前的社會發(fā)展中,各大數(shù)據(jù)庫使用的仍然是點對點的數(shù)據(jù)共享,這一復(fù)雜的網(wǎng)狀結(jié)構(gòu)既使得同樣的信息和功能重復(fù)出現(xiàn),又使得數(shù)據(jù)庫系統(tǒng)中存在大量的信息和功能冗余,這極大地阻礙了數(shù)據(jù)庫功能作用的發(fā)揮。而建立的新型綜合數(shù)據(jù)處理平臺,采用的是開放式架構(gòu)體系,其能夠有效地實現(xiàn)各系統(tǒng)之間的耦合,這既能夠簡化數(shù)據(jù)庫中的網(wǎng)狀結(jié)構(gòu),節(jié)省數(shù)據(jù)庫的空間,又能夠?qū)崟r完成新型數(shù)據(jù)庫中數(shù)據(jù)資源的共建、共享,_到提供信息資源和進行數(shù)據(jù)服務(wù)的目的。

構(gòu)建綜合數(shù)據(jù)處理平臺第三方面的目標是建立制定數(shù)據(jù)交換使用的標準。俗話說無規(guī)矩不成方圓,在構(gòu)建基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺時,需要在其目標制定階段就推出統(tǒng)一的數(shù)據(jù)交換標準,以保障后續(xù)工作的有序化開展。為了更好地滿足社會各界對于綜合數(shù)據(jù)處理平臺的各項業(yè)務(wù)開展的需要,需彌補當前數(shù)據(jù)庫中數(shù)據(jù)資源標準缺乏的不足,保障同一類型的數(shù)據(jù)不會存在多個數(shù)據(jù)源頭或者是多個數(shù)據(jù)格式,更好地實現(xiàn)數(shù)據(jù)的共享。在進行綜合數(shù)據(jù)處理平臺方案的設(shè)計時,要預(yù)先設(shè)置統(tǒng)一的數(shù)據(jù)訪問和數(shù)據(jù)交換的標準,避免數(shù)據(jù)的重復(fù)建設(shè),實現(xiàn)數(shù)據(jù)適應(yīng)業(yè)務(wù)需要的靈活化發(fā)展,滿足人們?nèi)找嬖鲩L的數(shù)據(jù)使用、業(yè)務(wù)變化需求,促進大數(shù)據(jù)綜合數(shù)據(jù)處理平臺的建設(shè)和發(fā)展。

在明確了這些平臺目標之后,還需要基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺,在方案設(shè)計研究中一步一步地對這些目標展開進一步的細化,使其成為可操作、實時性強的小目標。并在此基礎(chǔ)上構(gòu)建一個綜合數(shù)據(jù)處理平臺方案設(shè)計研究的目標體系,為基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺的建成做好必要的準備工作,為后續(xù)的平臺設(shè)計、研究、建設(shè)做好鋪墊。

2.2 基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺方案設(shè)計的總體構(gòu)架分析

在大數(shù)據(jù)的理念、技術(shù)支撐之下,可以構(gòu)建基于服務(wù)總線、數(shù)據(jù)庫級共享模塊以及應(yīng)用級模塊的綜合數(shù)據(jù)處理平臺。在具體的方案設(shè)計研究中,分別對這三大模塊進行分解、細化,使其成為更小的子系統(tǒng),然后對各子系統(tǒng)中的各個要素部分進行設(shè)計和處理。將所有的要素部分進行糅合,以此建立數(shù)據(jù)信息交互的綜合數(shù)據(jù)處理分析平臺。其中,基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺方案設(shè)計中的服務(wù)總線的主要功能是完成信息的路由、轉(zhuǎn)發(fā)、服務(wù)、注冊等,并且服務(wù)總線同時與其他同級平臺進行連接,以達到數(shù)據(jù)信息資源共享的目標。服務(wù)總線模塊的方案設(shè)計是整個綜合數(shù)據(jù)處理平臺的主體部分,如果將其比作生物人的話,服務(wù)總線就相當于人的大腦,對整個平臺的運轉(zhuǎn)進行指揮、調(diào)節(jié)、控制。

數(shù)據(jù)庫級共享模塊的作用是實現(xiàn)數(shù)據(jù)資源的存儲、交換,并達到共享的目的。在具體的方案構(gòu)架中,數(shù)據(jù)庫級共享模塊主要是通過對數(shù)據(jù)庫和共享數(shù)據(jù)庫進行直接訪問的方式展開,以完成各種類型的,大批量實時數(shù)據(jù)、靜態(tài)數(shù)據(jù)、統(tǒng)計分析數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及半Y構(gòu)化數(shù)據(jù)等的共享。數(shù)據(jù)庫級共享模塊還可以主動地對被抽取的數(shù)據(jù)、被動接收的數(shù)據(jù)進行共享數(shù)據(jù)庫的構(gòu)建,以不斷地滿足各大數(shù)據(jù)平臺的提供者和用戶對數(shù)據(jù)資源的儲存、交換,實現(xiàn)綜合數(shù)據(jù)處理平臺的作用。

而在應(yīng)用級共享模塊的建設(shè)時主要是要將其與服務(wù)總線進行連接,并在其進行標準的服務(wù)接口時,對數(shù)據(jù)庫中的數(shù)據(jù)資源進行共享數(shù)據(jù)加工、共享數(shù)據(jù)交換、共享數(shù)據(jù)服務(wù)以及共享流程服務(wù)等工作。應(yīng)用級共享模塊主要是通過這些工作來實現(xiàn)整個綜合數(shù)據(jù)處理平臺各系統(tǒng)之間的相互交流,相互協(xié)調(diào)合作,以實現(xiàn)各大數(shù)據(jù)平臺數(shù)據(jù)的交換和服務(wù)的共享。也可以這樣說,應(yīng)用級共享模塊在整個的綜合數(shù)據(jù)處理平臺中居于信息共享平臺的中樞、核心層,是實現(xiàn)大數(shù)據(jù)交換、服務(wù)、共享的關(guān)鍵板塊。

2.3 基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺設(shè)計的技術(shù)構(gòu)架分析

基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺設(shè)計的主要技術(shù)是計算機技術(shù)、互聯(lián)網(wǎng)技術(shù)、云計算處理技術(shù)以及信息通信、信息通訊等技術(shù),進行綜合數(shù)據(jù)處理平臺的構(gòu)建離不開這些現(xiàn)代化技術(shù)的支撐?;诖髷?shù)據(jù)的發(fā)展,綜合數(shù)據(jù)處理分析平臺中的硬件構(gòu)架主要有防火墻、交換機、數(shù)據(jù)庫服務(wù)器、光纖交換機、硬盤陣列以及應(yīng)用服務(wù)器等。

綜合數(shù)據(jù)處理分析平臺中的各大硬件構(gòu)架在使用過程中所憑借的具體技術(shù)支撐有所不同,各硬件構(gòu)架在整個綜合數(shù)據(jù)處理分析平臺中的地位也有所區(qū)別。其中,數(shù)據(jù)庫服務(wù)器主要采用的是固定分區(qū)方式,對數(shù)據(jù)庫中的數(shù)據(jù)進行存取、訪問控制、對數(shù)據(jù)進行管理、集成數(shù)據(jù)分析服務(wù)、對信息進行調(diào)度以實現(xiàn)共享等等。此外,數(shù)據(jù)庫服務(wù)器還能夠?qū)τ布?、軟件以及其他的受控件產(chǎn)生的故障進行探測,并同時將故障主機上的應(yīng)用迅速切換至其他的設(shè)備上,較大限度地保障數(shù)據(jù)業(yè)務(wù)使用的連貫性。

應(yīng)用服務(wù)器作為連接交換機、光纖交換機的主要載體,在整個的綜合數(shù)據(jù)處理分析平臺上處于核心設(shè)備地位,主要負責數(shù)據(jù)共享方面的業(yè)務(wù)。包括基于消息隊列的共享、基于共享數(shù)據(jù)庫方式的共享以及基于共享服務(wù)和業(yè)務(wù)流程級別的信息共享等。應(yīng)用服務(wù)器能夠保障資源的靈活性使用,并根據(jù)實際情況的需要,對信息資源進行相關(guān)的實時性調(diào)整。但為了更好地發(fā)揮應(yīng)用服務(wù)器在整個綜合數(shù)據(jù)處理平臺上的作用,在使用應(yīng)用服務(wù)器時,好對應(yīng)用服務(wù)器進行雙機集群處理。

2.4 基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺設(shè)計的網(wǎng)架架構(gòu)分析

網(wǎng)架構(gòu)架是整個數(shù)據(jù)平臺得以正常運轉(zhuǎn)的關(guān)鍵技術(shù)支撐,沒有網(wǎng)絡(luò)架構(gòu),綜合數(shù)據(jù)處理平臺其他模塊的構(gòu)架都是紙上談兵。當前,我國計算機網(wǎng)絡(luò)使用得比較普遍的是廣域網(wǎng)和局域網(wǎng),在絕大多數(shù)的行業(yè)領(lǐng)域,使用得最為普遍的是局域網(wǎng)。局域網(wǎng)主要是利用以太網(wǎng)技術(shù)作為網(wǎng)架架構(gòu),這在一定程度上能夠滿足平臺內(nèi)部的網(wǎng)絡(luò)使用需求,實現(xiàn)內(nèi)部數(shù)據(jù)資源的網(wǎng)絡(luò)共享。但在進行綜合數(shù)據(jù)平臺處理時,可以有意識地多加入廣域網(wǎng)的使用,以實現(xiàn)更廣范圍內(nèi)的行業(yè)和平臺之間信息的橫向溝通交流。這樣也可以實現(xiàn)更大范圍內(nèi)的數(shù)據(jù)資源共享,滿足人們對于大數(shù)據(jù)時展的數(shù)據(jù)需求,促進整個經(jīng)濟社會的信息化發(fā)展。

2.5 基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺設(shè)計的安全構(gòu)架分析

計算機網(wǎng)絡(luò)安全一直以來都是社會各界人士關(guān)注的重點。近些年來,黑客入侵、用戶信息資料泄露影響了網(wǎng)絡(luò)環(huán)境安全,給網(wǎng)絡(luò)用戶的生活帶來了極大的困擾。在構(gòu)建基于大數(shù)據(jù)的綜合數(shù)據(jù)處理平臺方案分析時,要充分地考慮到平臺各個方面、各個層級體系的安全性能,構(gòu)建完備的安全服務(wù)與安全防護體系,保障平臺與用戶進入口之間信息交換的安全性。

筆者認為,有如下的具體做法可以用來構(gòu)建綜合數(shù)據(jù)處理平臺中的安全架構(gòu)體系:一是強化防火墻技術(shù)系統(tǒng),對數(shù)據(jù)庫的訪問入口進行嚴密的限制、控制,并對服務(wù)器的區(qū)域邊界、區(qū)域之間的訪問進行嚴格的控制,以保障平臺數(shù)據(jù)資源使用的安全性。二是對各硬件、軟件進行防病毒系統(tǒng)保護。在各數(shù)據(jù)庫終端和服務(wù)器上都部署相應(yīng)的安全管理區(qū)域,對各用戶的訪問端口進行病毒掃描,定期對病毒管理系統(tǒng)進行優(yōu)化升級。借此進一步提高相關(guān)系統(tǒng)的監(jiān)控管理能力,提高綜合數(shù)據(jù)處理平臺系統(tǒng)的安全性。三是對應(yīng)用管系統(tǒng)和審計系統(tǒng)進行安全管理,無論是核心交換機還是終端、服務(wù)器都要對惡意用戶的不正當行為進行過濾和警告,尤其是要嚴格禁止不法用戶的非法訪問、惡意攻擊以及蠕蟲傳播等行為。要以此保障整個綜合數(shù)據(jù)處理平臺各系統(tǒng)之間各類型數(shù)據(jù)資源的安全性能,促進整個平臺安全構(gòu)架的建設(shè)。

3 結(jié)語

在探索綜合數(shù)據(jù)處理平臺方案設(shè)計研究的過程中,筆者發(fā)現(xiàn)大數(shù)據(jù)的處理技術(shù)還存在著一些亟待解決的問題。當前,大數(shù)據(jù)的存儲成本比較高,資源的利用率比較低,大數(shù)據(jù)系統(tǒng)的吞吐率也還比較低,非線性迭代算法還需要做進一步的優(yōu)化等,這些都是目前大數(shù)據(jù)平臺所存在的系列問題。在大數(shù)據(jù)時代背景下,構(gòu)建綜合數(shù)據(jù)處理分析平臺既需要相關(guān)的工作技術(shù)人員采取相應(yīng)的措施、方法來解決大數(shù)據(jù)自身所面臨的問題和挑戰(zhàn),也需要不斷地引進、開發(fā)新的技術(shù),解決在構(gòu)建綜合數(shù)據(jù)處理平臺過程中所產(chǎn)生的新問題。這從一定程度上來說增加了綜合數(shù)據(jù)處理平臺的方案設(shè)計難度和數(shù)據(jù)平臺的建立難度。

大數(shù)據(jù)處理論文:關(guān)于云計算大數(shù)據(jù)處理技術(shù)在智能電網(wǎng)中分析與應(yīng)用淺析

摘要:隨著我國經(jīng)濟的高速發(fā)展,我國的電力行業(yè)的快速發(fā)展,隨著科學技術(shù)的長足進步,使得現(xiàn)代化的智能電網(wǎng)取得一定的發(fā)展。隨著智能電網(wǎng)系統(tǒng)的構(gòu)建,隨著發(fā)電、輸電、用電等全方面的管理工作隨之開展,越來越多的現(xiàn)代化技術(shù)也逐步應(yīng)用到電力系統(tǒng)之中,特別是現(xiàn)代化云計算平臺的使用,使得大量的數(shù)據(jù)得到積累和存儲,從而推動了大數(shù)據(jù)存儲和管理技術(shù)的研究和發(fā)展。在現(xiàn)代化智能電網(wǎng)而言,既是機遇也是挑戰(zhàn)。本文主要通過對智能電網(wǎng)系統(tǒng)具體的應(yīng)用原則,從而探索其中面臨的困難和挑戰(zhàn)。

關(guān)鍵詞:智能電網(wǎng) 大數(shù)據(jù)處理技術(shù) 應(yīng)用現(xiàn)狀 面臨困境

在經(jīng)濟發(fā)展和科學技術(shù)的進步時期,為人類帶來了效益的同時也造成了嚴重的資源浪費,因此在這一時代背景下各國都加強了對智能電網(wǎng)的研究和建設(shè)工作。在智能電網(wǎng)的管理過程中,對于大量數(shù)據(jù)的管理、處理、存儲等方面的問題困擾使用者,這也是現(xiàn)階段需要及時改善的內(nèi)容,因此本文以此為背景,對其應(yīng)用和挑戰(zhàn)進行分析和研究。

1 智能電網(wǎng)云計算大數(shù)據(jù)處理技術(shù)的應(yīng)用現(xiàn)狀

1.1 智能電網(wǎng)的大數(shù)據(jù)

在智能電網(wǎng)中,大數(shù)據(jù)的產(chǎn)生和存在主要由以下三個方面的原因[1]。一方面是對于電網(wǎng)運行以及設(shè)備數(shù)據(jù)方面的內(nèi)容,這方面的數(shù)據(jù)也是智能電網(wǎng)的主要內(nèi)容,同時也是程序最復(fù)雜的部分;第二方面是對于電能的營銷數(shù)據(jù),這也是企業(yè)發(fā)展最櫓匾的部分,很多企業(yè)都對這部分內(nèi)容投入大量的人力、物力投入;第三個方面是對于電力企業(yè)的管理數(shù)據(jù)。在這三方面形成了嚴密、系統(tǒng)的整體,但是很多專家和學者都不會采用分層劃分的方式,因此導(dǎo)致多數(shù)學者傾向于數(shù)據(jù)內(nèi)部的層次劃分。大數(shù)據(jù)力求通過整合數(shù)據(jù)內(nèi)部的結(jié)構(gòu)為主要特點,對數(shù)據(jù)的相關(guān)信息進行有效的細化分析,從而分析出結(jié)構(gòu)性數(shù)據(jù)以及非結(jié)構(gòu)性數(shù)據(jù)兩個不同的部分。同時對于非結(jié)構(gòu)數(shù)據(jù)而言,無法利用數(shù)據(jù)庫的二維模式進行編輯,這種類型的數(shù)據(jù)呈現(xiàn)出高速發(fā)展增長態(tài)勢。在電網(wǎng)系統(tǒng)中,對于智能電網(wǎng)數(shù)據(jù)而言,非結(jié)構(gòu)數(shù)據(jù)占據(jù)極大的比重。

1.2 大數(shù)據(jù)處理技術(shù)的復(fù)雜性

隨著全世界的科學技術(shù)的發(fā)展,對于大數(shù)據(jù)的研究和應(yīng)用不斷發(fā)展和深入,大數(shù)據(jù)的應(yīng)用和科學的發(fā)展都對科學和經(jīng)濟的發(fā)展具有重要的影響[2]?,F(xiàn)階段的國家、企業(yè)之間的競爭都是圍繞大數(shù)據(jù)進行的控制和管理工作。但是對于云計算平臺自身而言,其實用性存在較大的劣勢,對于大數(shù)據(jù)的分析和挖掘等方面無法得到充分的滿足。隨著大數(shù)據(jù)的多元化發(fā)展方向,對于數(shù)據(jù)的發(fā)掘以及處理方面都得到了及時的提高,從而有效利用復(fù)雜的混合計算模式,從而實現(xiàn)智能化電網(wǎng)的大數(shù)據(jù)技術(shù)的局限性突破和發(fā)展。

2 智能電網(wǎng)中云計算大數(shù)據(jù)處理技術(shù)的具體應(yīng)用和分析

2.1 智能電網(wǎng)中大數(shù)據(jù)的傳輸和存儲技術(shù)

當前信息化技術(shù)的發(fā)展使得電網(wǎng)系統(tǒng)地智能化發(fā)展取得了一定的成效,在電力系統(tǒng)的運行過程中,需要對各個環(huán)節(jié)的相關(guān)數(shù)據(jù)和設(shè)備的監(jiān)測數(shù)據(jù)進行詳細的記錄,這個過程中所產(chǎn)生的海量數(shù)據(jù),使得監(jiān)控系統(tǒng)承擔著比較大的壓力,對于智能電網(wǎng)的進一步發(fā)展有著一定的阻礙作用[3]。在電網(wǎng)數(shù)據(jù)的傳輸方面,通過利用數(shù)據(jù)壓縮的方式可以減少數(shù)據(jù)的傳輸量,保障數(shù)據(jù)傳輸效率的提升。這樣導(dǎo)致越來越多的數(shù)據(jù)壓縮技術(shù)被應(yīng)用到智能電網(wǎng)中,能夠降低數(shù)據(jù)存儲的空間,但在這個過程中會造成一定的資源浪費。在數(shù)據(jù)的存儲方面,通常情況下使用的方式是分布式文件保存,實現(xiàn)對于大量數(shù)據(jù)的存儲,但是在對于實時數(shù)據(jù)的處理方面存在著一定的缺陷。

在智能電網(wǎng)中,非結(jié)構(gòu)化數(shù)據(jù)占到了比較大的比重,有著十分重要的作用,在存儲方面要將這些海量的非結(jié)構(gòu)化數(shù)據(jù)進行有效轉(zhuǎn)化,是當前智能電網(wǎng)大數(shù)據(jù)處理技術(shù)所面臨的困境。

2.2 大數(shù)據(jù)的實時處理技術(shù)

大數(shù)據(jù)處理技術(shù)在當前的智能電網(wǎng)進程中有著比較重要的作用,在大數(shù)據(jù)技術(shù)的應(yīng)用中,處理速度是一個重要的衡量指標,如果數(shù)據(jù)的規(guī)模過大,所需要的處理時間就比較長,當數(shù)據(jù)規(guī)模超過處理技術(shù)的承受能力,會對電網(wǎng)的正常運行造成一定的影響,這就需要保障數(shù)據(jù)傳輸、分析以及處理的速度。大數(shù)據(jù)云計算系統(tǒng)雖然能夠為智能電網(wǎng)提供品質(zhì)快速的服務(wù),但是也有可能會造成網(wǎng)絡(luò)堵塞現(xiàn)象,會使得電網(wǎng)的服務(wù)器運行受到影響。

2.3 可視化分析技術(shù)

智能電網(wǎng)在運行過程中會產(chǎn)生大量的數(shù)據(jù),而對這些數(shù)據(jù)進行及時有效的處理,同時在有限的顯示屏內(nèi)展示給用戶,這也是當前智能電網(wǎng)大數(shù)據(jù)處理所面臨的嚴峻挑戰(zhàn)。同時還要保障智能電網(wǎng)數(shù)據(jù)網(wǎng)絡(luò)的質(zhì)量,對整個網(wǎng)絡(luò)系統(tǒng)進行定期的檢測和維護,如果出現(xiàn)故障,要結(jié)合出現(xiàn)故障的現(xiàn)象采用相關(guān)的技術(shù)進行分析處理,在根源上解除故障,保障數(shù)據(jù)網(wǎng)絡(luò)正常運轉(zhuǎn)。

3 結(jié)語

通過上述的分析,在當前提倡綠色低碳經(jīng)濟發(fā)展理念以及網(wǎng)絡(luò)信息技術(shù)飛速發(fā)展的基礎(chǔ)上,智能電網(wǎng)的建設(shè)和發(fā)展已經(jīng)成為一種必然的趨勢,在智能電網(wǎng)應(yīng)用中的云計算大數(shù)據(jù)處理技術(shù)主要包括存儲和傳輸技術(shù)、實時處理技術(shù)以及可視化分析技術(shù),文章對這集中主要的技術(shù)進行了研究和分析,最終得出這幾種技術(shù)在智能電網(wǎng)中有著非常重要的作用,可以對電網(wǎng)系統(tǒng)的戴亮數(shù)據(jù)進行及時的存儲、傳輸、收集以及處理,有效的彌補了傳統(tǒng)處理技術(shù)的不足,使得電網(wǎng)數(shù)據(jù)處理的效率和質(zhì)量得到了大幅提升,但是也存在著一定的不足,這就需要相關(guān)的工作人員進行不斷的努力和創(chuàng)新,探索出一種有效的解決方法,促進我國智能電網(wǎng)的穩(wěn)定健康發(fā)展。

大數(shù)據(jù)處理論文:云時代背景下大數(shù)據(jù)處理在電子信息風險中的應(yīng)用

2016年,雅虎事件爆發(fā),數(shù)以億計的客戶信息遭到泄露。除去雅虎公司自身存在的問題,該事件同時也折射了傳統(tǒng)的電子信息風險管理還有待健全和完善。在云時代背景下,大數(shù)據(jù)處理得到有效的發(fā)掘和利用,為電子信息的風險提供了另一種思路和方向,提高了電子信息風險的可預(yù)見性,對于完善電子信息風險管理體系和促進該行業(yè)的健康發(fā)展具有極為重要的意義。

【關(guān)鍵詞】云時代 大數(shù)據(jù) 電子信息

1 云時代及云時代背景下的大數(shù)據(jù)

云時代即為云計算時代,它是一種基于互聯(lián)網(wǎng)的計算方式,表現(xiàn)為眾多技術(shù)的積累和組合,利用共享的軟硬件資源和信息,使用戶能夠根據(jù)自身需求訪問計算機和存儲系統(tǒng)。云計算普及后,越來越多的用戶選擇將各類信息傳輸?shù)接嬎銠C的“云端”,從而匯聚到大數(shù)據(jù)中。而大數(shù)據(jù)這個詞語無疑是時下最熱門的IT詞匯之一,人們越來越認識到每天大量產(chǎn)生的數(shù)據(jù)本身就蘊藏著無窮的資源與財富。其實,大數(shù)據(jù)這個概念很早之前就已經(jīng)出現(xiàn)了,然而受到科技發(fā)展的局限性,大數(shù)據(jù)并未得到有效利用,因為只有海量的數(shù)據(jù)而不進行處理是沒有用處的。隨著互聯(lián)網(wǎng)技術(shù)尤其是云計算的不斷發(fā)展與普及,使得大數(shù)據(jù)的處理、分析和利用成為可能。云時代背景下的大數(shù)據(jù)處理其核心價值在于它的預(yù)測功能,可以為用戶提高工作效率和生產(chǎn)力提供解決方案。大數(shù)據(jù)處理也已在眾多行業(yè)包括一些新興行業(yè)中發(fā)揮著巨大的作用。

2 案例分析

2016年的雅虎事件將雅虎這家享譽全球的科技公司推上了風口浪尖,有超過5億雅虎用戶的賬戶信息被黑客攻擊竊取,并且該事件的最早發(fā)生事件可能追溯到兩年前,甚至更早。網(wǎng)絡(luò)黑客以高價出售其竊取的有效信息,這些信息包括用戶的賬戶名、密碼、密碼保護以及一些郵件地址等。對于此次事件,盡管雅虎公司做出了諸多解釋,然而這一事件的發(fā)生及后期的事件j釀,使得雅虎公司形象大跌。類似事件受影響較為嚴重的公司還包括LinkedIn、MySpace以及Tumblr等知名公司,其每家公司的單一網(wǎng)站遭受的損失平均超過億元。隨著信息時代的不斷發(fā)展,電子信息蒙受損失的事故不斷涌現(xiàn),其中既包括經(jīng)濟損失,也包括非經(jīng)濟型如政治類、軍事類的損失。從雅虎事件到近期歐洲各國提款機遭遠程攻擊等來看,信息爆炸時代,電子信息風險變得常態(tài)化、多樣化以及復(fù)雜化。如何防范電子信息風險,合理進行電子信息的風險管理成為大家普遍關(guān)心的問題。

3 大數(shù)據(jù)處理對電子信息風險的意義

據(jù)稱,雅虎事件的主要原因是其旗下使用的服務(wù)器安全漏洞太多。雖然雅虎公司在電子信息風險管控中存在很多失誤,但不可否認的是,以往眾多公司采用的傳統(tǒng)形式的電子信息風險管控方式在如今這個時代背景下已然顯得有些捉襟見肘。而要想實現(xiàn)電子信息風險管理的智能化、可預(yù)期化,云時代下的大數(shù)據(jù)利用便為其提供了無限的可能。目前,已有很多領(lǐng)域接受并利用大數(shù)據(jù)技術(shù),并取得了一些突破性的進展。比如電商領(lǐng)域,天貓等通過大數(shù)據(jù)分析得出消費者的消費心理及關(guān)注點,從而在網(wǎng)頁瀏覽時及時地推送消費者所關(guān)注的商品信息等。而風險控制仍未充分開始利用它的力量。因此,探討大數(shù)據(jù)處理在電子信息風險管理上的應(yīng)用對于促進其健康發(fā)展,彌補傳統(tǒng)風險管理手段的不足,建立完善的風險防范體系有著重要的現(xiàn)實意義。

4 云時代背景下大數(shù)據(jù)在電子信息風險中的應(yīng)用

電子信息風險管理,是指通過相應(yīng)的監(jiān)控管理技術(shù)識別以及評估電子信息可能存在的風險,繼而實現(xiàn)對電子信息風險的控制與消除,并以低的成本使風險損失程度降低的管理活動。傳統(tǒng)的電子信息風險控制措施主要有數(shù)據(jù)備份、定期系統(tǒng)檢查、系統(tǒng)還原以及安裝并提高防火墻等級等,但這些措施并不能對風險進行很好地控制。大數(shù)據(jù)技術(shù)提供的基于預(yù)測功能的應(yīng)用,為電子信息有效的風險管控提供了一種新的思維管理方式,使得系統(tǒng)在運行的過程中實現(xiàn)電子信息風險的事前、事中及事后管理與控制的目標。

4.1 建立風險預(yù)測模型,做到事前預(yù)判

大數(shù)據(jù)處理技術(shù)在風險管理的事前控制中,通過收集運行常規(guī)數(shù)據(jù),以及各類非結(jié)構(gòu)化的數(shù)據(jù),再由云計算整合大數(shù)據(jù)運算出風險事前控制的預(yù)測計算模型,從而得到一個高度可行的預(yù)測方案,對風險發(fā)生前電子信息運行的外部環(huán)境、自身存在的風險等進行預(yù)判,提前預(yù)知風險的發(fā)生,讓電子信息在發(fā)生危機之前就拉響警報,實時的預(yù)判和動態(tài)提示可提醒相關(guān)人員注意提前控制和規(guī)避風險,做出合理的反應(yīng)和決定,保護電子信息免受損失。例如百度的百度云和奇虎360的360云安全服務(wù)系統(tǒng)都是通過通過云端大數(shù)據(jù)庫對數(shù)據(jù)信息處理進而實現(xiàn)對外部環(huán)境的識別,電子信息在遭遇黑客攻擊前,便可及時提示用戶不要對某些網(wǎng)頁、信息進行瀏覽和下載,或在用戶的終端禁止某些病毒類文件,以防黑客有機可乘。如瑞星的近期云管家產(chǎn)品每天攔截木馬攻擊的次數(shù)達100次。

4.2 大數(shù)據(jù)處理在事中風險控制的應(yīng)用

在風險發(fā)生的過程中,大數(shù)據(jù)的應(yīng)用可以為用戶采取應(yīng)急措施提供相應(yīng)的便利。云技術(shù)背景下的大數(shù)據(jù)風險應(yīng)急管理技術(shù)可以云端所有的數(shù)據(jù)庫,實時在線對相應(yīng)的風險進行快速的分析并處理,諸如360的云端快速掃描、全盤掃描以及特定盤的掃描等,從而快速的去除相應(yīng)的風險。此外,在應(yīng)對電子信息風險管理上的漏洞,大數(shù)據(jù)分析技術(shù)還可以整合風險管理涉及的各個部門提供的有效信息,并提出合理的風險決策,使相關(guān)部門和人員可以及時的通力協(xié)作,信息共享,保障風險應(yīng)急處置的及時性和工作效率。對個人來說,大數(shù)據(jù)還可以為風險的應(yīng)急處理提供更加便捷靈活的手段。

4.3 大數(shù)據(jù)處理在風險事后中的應(yīng)用

大數(shù)據(jù)基礎(chǔ)上建立的風險發(fā)展趨勢預(yù)測,還可以模擬風險發(fā)生后可能產(chǎn)生的結(jié)果,并合理估算風險事故中產(chǎn)生的各項損失,基于云計算的大數(shù)據(jù)處理將為風險事故在發(fā)生后提供的處置方案,以較大限度減少或消除用戶的損失。此外,事故的處理與信息反饋是大數(shù)據(jù)處理的另一項重要的功能。通過相應(yīng)的信息數(shù)據(jù)反饋從而不斷地更新和修正數(shù)據(jù)庫產(chǎn)生的模型,將風險管理體系進行進一步的優(yōu)化和健全,防止下次事件的發(fā)生。

5 結(jié)語

云計算為大數(shù)據(jù)在電子信息風險管理的應(yīng)用提供了可能。有報道稱,大數(shù)據(jù)的價值在被夸大,但無可否認的是,大數(shù)據(jù)處理已經(jīng)在很多行業(yè)卓有成效。因此,云時代背景下的大數(shù)據(jù)能夠有效地提升和優(yōu)化電子信息的風險管理體系,降低風控成本,并實現(xiàn)在線實時監(jiān)控,具有很好的發(fā)展前景。與其說大數(shù)據(jù)提供了一種技術(shù)上的支持方案,不如說它提供了一種風險管理的思維,激發(fā)了新的價值增長點,讓人們從另一個方向去解決電子信息風險管理出現(xiàn)的問題。這對于完善電子信息風險管理體系以及促進該行業(yè)的健康發(fā)展具有極為重要的意義。

大數(shù)據(jù)處理論文:基于R語言的大數(shù)據(jù)處理平臺的設(shè)計與實現(xiàn)

摘 要: R語言是一種基于統(tǒng)計、運算和繪圖的數(shù)據(jù)處理方式,其能夠較為理想地進行大數(shù)據(jù)處理工作。因此,設(shè)計基于R語言的大數(shù)據(jù)處理平臺。當平臺的用戶請求層向技術(shù)層發(fā)送大數(shù)據(jù)處理指令,技術(shù)層隨即開始工作,其處理結(jié)果也將反饋至用戶請求層。技術(shù)層由大數(shù)據(jù)管理模塊、大數(shù)據(jù)處理模塊和R語言控制模塊組成,大數(shù)據(jù)處理模塊的EP1C6Q240C8芯片通過借鑒大型數(shù)據(jù)庫內(nèi)容,進行大數(shù)據(jù)的挖掘工作,并將其挖掘結(jié)果提供給大數(shù)據(jù)處理模塊進行大數(shù)據(jù)的篩選、匯總、轉(zhuǎn)換和標準控制。經(jīng)大數(shù)據(jù)處理模塊處理后的大數(shù)據(jù),將通過串口通信電路回傳給用戶請求層。R語言控制模塊為整個平臺制訂處理標準。軟件方面利用R語言的類聚性能設(shè)計技術(shù)層挖掘功能圖和大數(shù)據(jù)向量化處理代碼。實驗結(jié)果表明,所設(shè)計的平臺能夠?qū)Υ髷?shù)據(jù)進行高性能的處理。

關(guān)鍵詞: R語言; 大數(shù)據(jù)處理平臺; EP1C6Q240C8; 數(shù)據(jù)挖掘

0 引 言

網(wǎng)絡(luò)時代的來臨,使大數(shù)據(jù)不可避免地吸引到了各界的關(guān)注。大數(shù)據(jù)處理平臺要求其處理方式應(yīng)具有超強的決策能力,以應(yīng)對大數(shù)據(jù)海量、多樣性的特點[1?3]。R語言是一種基于統(tǒng)計、運算和繪圖的數(shù)據(jù)處理方式,與普通處理方式相比,R語言能夠?qū)崿F(xiàn)更加復(fù)雜的數(shù)據(jù)處理,且處理效果較為理想。根據(jù)R語言的以上優(yōu)勢,設(shè)計基于R語言的大數(shù)據(jù)處理平臺,使大數(shù)據(jù)處理平臺具有較高的處理性能[4?6]。

科研組織也曾研究出一些較具特點的大數(shù)據(jù)處理平臺,但這些平臺的處理性能均有待提高,如文獻[7]提出基于Jaql的大數(shù)據(jù)處理平臺,該平臺利用Jaql編輯處理語言縮減大數(shù)據(jù)傳輸量,最終提高平臺處理性能,但由于Jaql編輯處理語言的處理能力有限,無法高效完成海量大數(shù)據(jù)的轉(zhuǎn)換工作,致使整個平臺的處理性能不高。文獻[8]提出基于OPENMP的大數(shù)據(jù)處理平臺,OPENMP是一種基于分布處理、集中管控的處理方式,其對大數(shù)據(jù)的兼容性較強,處理效率較高,但擴展性能較差,致使整個平臺的更新能力欠佳,無法應(yīng)對大數(shù)據(jù)的實時變化。文獻[9]提出基于PR的大數(shù)據(jù)處理平臺,該平臺利用PR隱形并列的處理方式,將大數(shù)據(jù)特點進行剖析,只提取出其中的關(guān)鍵信息點,達到縮減大數(shù)據(jù)內(nèi)存的目的,進而降低平臺處理壓力,但該平臺的處理效率不高,大數(shù)據(jù)信息較易丟失。

基于上述大數(shù)據(jù)處理平臺的缺陷,提出基于R語言的大數(shù)據(jù)處理平臺,以實現(xiàn)大數(shù)據(jù)處理平臺對大數(shù)據(jù)的高效解析、增強平臺各項處理性能。

1 基于R語言的大數(shù)據(jù)處理平臺設(shè)計

1.1 平臺總體設(shè)計

基于R語言的大數(shù)據(jù)處理平臺由用戶請求層、技術(shù)層和多種大型數(shù)據(jù)庫組成,如圖1所示。

由圖1可知,當用戶請求層向技術(shù)層發(fā)送大數(shù)據(jù)處理指令,技術(shù)層隨即開始工作,其處理結(jié)果也將反饋至用戶請求層。技術(shù)層由大數(shù)據(jù)管理模塊、大數(shù)據(jù)處理模塊和R語言控制模塊組成,技術(shù)層是基于R語言的大數(shù)據(jù)處理平臺的重點設(shè)計部分。平臺為技術(shù)層提供了多種大型數(shù)據(jù)庫,技術(shù)層在實現(xiàn)大數(shù)據(jù)處理的過程中會借鑒這些大數(shù)據(jù)庫的處理結(jié)果,保障平臺處理性能。

1.2 大數(shù)據(jù)管理模塊設(shè)計

大數(shù)據(jù)管理模塊能夠進行大數(shù)據(jù)的挖掘和供給工作,其進行大數(shù)據(jù)挖掘的主要借鑒對象有地方資源庫、大數(shù)據(jù)檔案庫以及網(wǎng)絡(luò)大數(shù)據(jù)地址。供給工作是指大數(shù)據(jù)管理模塊將挖掘出的大數(shù)據(jù)進行分類、挑選后,將其按一定順序供給大數(shù)據(jù)處理模塊進行大數(shù)據(jù)的處理工作。大數(shù)據(jù)管理模塊的核心控制元件選取了某公司設(shè)計的EP1C6Q240C8芯片。EP1C6Q240C8芯片的成本不高,且資源較多,是一種能夠?qū)崿F(xiàn)實時高效編輯的控制芯片。EP1C6Q240C8芯片擁有先入先出隊列模式,其數(shù)據(jù)傳輸量高達36 b,傳輸速率較高可達300 MHz,能夠有效減少基于R語言的大數(shù)據(jù)處理平臺的大數(shù)據(jù)丟失率,并為平臺的后期更新工作提供了技術(shù)支持。EP1C6Q240C8芯片結(jié)構(gòu)圖如圖2所示。

由圖2可知,EP1C6Q240C8芯片主要由邏輯陣列塊和I/O塊組成。邏輯陣列塊中的鎖相環(huán)是一種高性能反饋控制電路,鎖相環(huán)能夠根據(jù)挖掘信號實現(xiàn)基于R語言的大數(shù)據(jù)處理平臺對大數(shù)據(jù)信號的分類,并可對分類后的大數(shù)據(jù)實施主動追蹤。M4K存儲器為平臺提供大數(shù)據(jù)的分類存儲區(qū)域。I/O塊的主要作用就是實現(xiàn)大數(shù)據(jù)的傳輸工作,包括EP1C6Q240C8芯片的內(nèi)部傳輸,以及大數(shù)據(jù)管理模塊與大數(shù)據(jù)處理模塊的通信傳輸。

1.3 大數(shù)據(jù)處理模塊設(shè)計

大數(shù)據(jù)處理模塊的主要工作是進行大數(shù)據(jù)的篩選、匯總、轉(zhuǎn)換和標準控制。篩選是指將挖掘到的大數(shù)據(jù)中的不正常信息和錯誤格式篩選出來,常用的篩選方式有填補空缺法、標準值替換法、異常值隱藏法等。大數(shù)據(jù)處理模塊進行的篩選工作是其及時流程,這程不能忽略,必要時應(yīng)進行多次篩選,以保障基于R語言的大數(shù)據(jù)處理平臺的率。匯總是指大數(shù)據(jù)處理模塊將篩選后的大數(shù)據(jù)匯總并構(gòu)建數(shù)據(jù)庫的過程。在這一過程中,大數(shù)據(jù)在數(shù)據(jù)庫中的、高效分類匹配是其應(yīng)重點解決的問題。大數(shù)據(jù)處理模塊利用R語言解決了這一問題。轉(zhuǎn)換是統(tǒng)一大數(shù)據(jù)格式的過程,大數(shù)據(jù)處理模塊利用A/D轉(zhuǎn)換電路實現(xiàn)這一過程。

標準控制是指利用各項標準管控大數(shù)據(jù)處理的過程,基于R語言的大數(shù)據(jù)處理平臺的常用標準有解壓縮標準、維度標準、常規(guī)數(shù)值標準等,這些標準能夠?qū)崟r控制大數(shù)據(jù)處理模塊對大數(shù)據(jù)的壓縮、篩選、刪除、替換等工作,是實現(xiàn)平臺高性能的保障。

1.3.1 A/D轉(zhuǎn)換電路設(shè)計

由于大數(shù)據(jù)管理模塊挖掘出的大數(shù)據(jù)的格式并不統(tǒng)一,故需首先對大數(shù)據(jù)進行格式轉(zhuǎn)換。A/D轉(zhuǎn)換電路的轉(zhuǎn)換性能直接影響著基于R語言的大數(shù)據(jù)處理平臺的各項性能,故在A/D轉(zhuǎn)換電路的設(shè)計中,應(yīng)盡可能保障其轉(zhuǎn)換的效率和率。

選用某公司設(shè)計的TLC5510I轉(zhuǎn)換器作為A/D轉(zhuǎn)換電路的核心元件。TLC5510I轉(zhuǎn)換器是一種能夠進行高速A/D轉(zhuǎn)換的8位高阻抗并行A/D轉(zhuǎn)換器。擁有了TLC5510I轉(zhuǎn)換器,A/D轉(zhuǎn)換電路便能夠縮減掉其復(fù)雜的外接電路,減輕了設(shè)計難度,并間接節(jié)約了基于R語言的大數(shù)據(jù)處理平臺的運行成本。圖3是TLC5510I轉(zhuǎn)換器結(jié)構(gòu)圖。

由圖3可知,A/D轉(zhuǎn)換電路經(jīng)由TLC5510I轉(zhuǎn)換器轉(zhuǎn)換大數(shù)據(jù)格式,TLC5510I轉(zhuǎn)換器主要由基準分壓器、時鐘發(fā)生器、采樣比較器、采樣編碼器和數(shù)據(jù)鎖存器組成??刂崎_關(guān)將根據(jù)大數(shù)據(jù)的內(nèi)存狀態(tài)對基準分壓器中的三種電阻進行控制。時鐘發(fā)生器會輸出三種計時信號,這三種計時信號會直接傳輸給采樣比較器,經(jīng)由采樣比較器按順序依次傳遞給采樣編碼器和數(shù)據(jù)鎖存器。

1.3.2 串口通信電路O計

經(jīng)大數(shù)據(jù)處理模塊處理過的大數(shù)據(jù),需要一個傳輸性能較為完善的串口通信電路將處理后的大數(shù)據(jù)傳輸?shù)接脩粽埱髮樱O(shè)計的串口通信電路簡圖如圖4所示。

圖4中,串口通信電路的傳輸芯片選用EP1C6Q256芯片,該芯片的工作電壓范圍是[1.43 V,1.58 V],能夠在[0 ℃,85 ℃]的環(huán)境下工作。其擁有5 980個邏輯塊,能夠高效、且穩(wěn)定地進行大數(shù)據(jù)傳輸。EP1C6Q256芯片控制著大數(shù)據(jù)的高性能輸入和電源的穩(wěn)定供電,使串口通信電路能夠直接將處理后的大數(shù)據(jù)輸入到用戶請求層,提高了基于R語言的大數(shù)據(jù)處理平臺的整體效率。

1.4 R語言控制模塊設(shè)計

R語言控制模塊通過調(diào)取Java類加載器,為基于R語言的大數(shù)據(jù)處理平臺提供所有技術(shù)支持,即制訂平臺的處理標準。Java類加載器是一種能夠?qū)⒋髷?shù)據(jù)按需存儲到內(nèi)存中的虛擬設(shè)備,其獨立于算法編譯器,可以對大數(shù)據(jù)進行選擇性處理。圖5是Java類加載器結(jié)構(gòu)圖。

圖5中,啟動類加載器為R語言控制模塊調(diào)用剛挖掘出的大數(shù)據(jù)進行讀取,這部分大數(shù)據(jù)不能修改,只能對其進行R語言算法處理;擴展類加載器能夠調(diào)用大數(shù)據(jù)處理結(jié)果,R語言控制模塊可對其進行直接修改;應(yīng)用程序類加載器是基于R語言的大數(shù)據(jù)處理平臺的基礎(chǔ)加載器,該加載器在日常工作中常處于休眠狀態(tài),當啟動類加載器和擴展類加載器無法調(diào)用大數(shù)據(jù)時,應(yīng)用程序類加載器便會啟動并接手上述工作。

2 基于R語言的大數(shù)據(jù)處理平臺的軟件設(shè)計

技術(shù)層對大數(shù)據(jù)的挖掘工作是整個基于R語言的大數(shù)據(jù)處理平臺的運行基礎(chǔ),為了保障技術(shù)層挖掘出的大數(shù)據(jù)擁有較高質(zhì)量,平臺利用R語言的類聚性能,設(shè)計了技術(shù)層挖掘功能圖,如圖6所示。

由圖6可知,技術(shù)層挖掘功能圖主要有預(yù)處理、分類和熱點實現(xiàn)三種功能。預(yù)處理功能主要進行大數(shù)據(jù)預(yù)處理,其根據(jù)R語言向技術(shù)層中的大數(shù)據(jù)處理模塊寫入特征算法,將大數(shù)據(jù)向量化,即將一維數(shù)據(jù)格式變換成向量格式,并對向量格式的大數(shù)據(jù)進行分類。預(yù)處理功能對大數(shù)據(jù)進行向量化的代碼設(shè)計為:

分類功能包括大數(shù)據(jù)的分類挖掘和類聚挖掘,單一結(jié)構(gòu)的大數(shù)據(jù)會直接進行大數(shù)據(jù)類聚挖掘,對于結(jié)構(gòu)較為復(fù)雜的大數(shù)據(jù),軟件將先對其進行大數(shù)據(jù)分類挖掘,將熱點狀態(tài)不一致的大數(shù)據(jù)分開存儲,進行類聚挖掘。熱點實現(xiàn)功能包括熱點跟蹤和熱點展示,原則上這兩個功能是能夠同時進行的,但出于對基于R語言的大數(shù)據(jù)處理平臺各項性能要求的考慮,軟件首先對分類后的大數(shù)據(jù)進行熱點跟蹤,驗證其無誤后,再對大數(shù)據(jù)進行熱點展示。

3 實驗分析

大數(shù)據(jù)處理平臺的性能主要包括大數(shù)據(jù)寫入和讀取效率、大數(shù)據(jù)挖掘吞吐量以及大數(shù)據(jù)處理效率。為驗證所設(shè)計的基于R語言的大數(shù)據(jù)處理平臺的性能,現(xiàn)進行實驗。實驗選取性能較高的基于Hadoop的大數(shù)據(jù)處理平臺和基于OPENMP的大數(shù)據(jù)處理平臺,與本文平臺進行對比。大數(shù)據(jù)寫入和讀取效率、大數(shù)據(jù)挖掘吞吐量的實驗結(jié)果如圖7~圖9所示,大數(shù)據(jù)處理效率實驗的處理時間結(jié)果如表1所示。

由圖7~圖9可知,大數(shù)據(jù)寫入效率、大數(shù)據(jù)讀取效率和大數(shù)據(jù)挖掘吞吐量的變化與大數(shù)據(jù)處理平臺的處理線程數(shù)有一定關(guān)系,在特定范圍內(nèi),處理線程數(shù)越多,平臺的性能就越高,若超出特定范圍,過多的處理線程數(shù)將導(dǎo)致平臺性能下降。

因此,在實際應(yīng)用中應(yīng)選擇適合的處理線程數(shù)。雖受處理線程數(shù)影響,但本文平臺的大數(shù)據(jù)寫入效率、大數(shù)據(jù)讀取效率和大數(shù)據(jù)挖掘吞吐量性能均高于基于Hadoop的大數(shù)據(jù)處理平臺和基于OPENMP的大數(shù)據(jù)處理平臺。且根據(jù)表1數(shù)據(jù)能夠得出,本文平臺擁有較高的大數(shù)據(jù)處理效率。以上實驗結(jié)果表明,本文平臺能夠?qū)Υ髷?shù)據(jù)進行高性能的處理。

4 結(jié) 論

本文設(shè)計了基于R語言的大數(shù)據(jù)處理平臺。當平臺的用戶請求層向技術(shù)層發(fā)送大數(shù)據(jù)處理指令,技術(shù)層隨即開始工作,其處理結(jié)果也將反饋至用戶請求層。技術(shù)層由大數(shù)據(jù)管理模塊、大數(shù)據(jù)處理模塊和R語言控制模塊組成。大數(shù)據(jù)處理模塊的EP1C6Q240C8芯片通過借鑒大型數(shù)據(jù)庫內(nèi)容,進行大數(shù)據(jù)的挖掘工作,并將其挖掘結(jié)果供給大數(shù)據(jù)處理模K進行大數(shù)據(jù)的篩選、匯總、轉(zhuǎn)換和標準控制。經(jīng)大數(shù)據(jù)處理模塊處理后的大數(shù)據(jù)將通過串口通信電路回傳給用戶請求層。R語言控制模塊為整個平臺制訂處理標準。軟件利用R語言的類聚性能,設(shè)計技術(shù)層挖掘功能圖和大數(shù)據(jù)向量化處理代碼。實驗結(jié)果表明,所設(shè)計的平臺能夠?qū)Υ髷?shù)據(jù)進行高性能的處理。

大數(shù)據(jù)處理論文:試論智能電網(wǎng)大數(shù)據(jù)處理技術(shù)的應(yīng)用現(xiàn)狀及面臨的挑戰(zhàn)

摘要:隨著我國經(jīng)濟的高速發(fā)展,我國的電力行業(yè)的快速發(fā)展,隨著科學技術(shù)的長足進步,使得現(xiàn)代化的智能電網(wǎng)取得一定的發(fā)展。隨著智能電網(wǎng)系統(tǒng)的構(gòu)建,隨著發(fā)電、輸電、用電等全方面的管理工作隨之開展,越來越多的現(xiàn)代化技術(shù)也逐步應(yīng)用要電力系統(tǒng)之中,特別是現(xiàn)代化云計算平臺的使用,使得大量的數(shù)據(jù)得到積累和存儲,從而推動了大數(shù)據(jù)存儲和管理技術(shù)的研究和發(fā)展。在現(xiàn)代化智能電網(wǎng)而言,既是機遇也是挑戰(zhàn)。本文主要通過對智能電網(wǎng)系統(tǒng)具體的應(yīng)用原則,從而探索其中面臨的困難和挑戰(zhàn)。

關(guān)鍵詞:智能電網(wǎng) 大數(shù)據(jù)處理技術(shù) 應(yīng)用現(xiàn)狀 面臨困境

在經(jīng)濟發(fā)展和科學技術(shù)的進步時期,為人類帶來了效益的同時也造成了嚴重的資源浪費,因此在這一時代背景下各國都加強了對智能電網(wǎng)的研究和建設(shè)工作。在智能電網(wǎng)的管理過程中,對于大量數(shù)據(jù)的管理、處理、存儲等方面的問題困擾使用者,這也是現(xiàn)階段需要及時改善的內(nèi)容,因此本文以此為背景,對其應(yīng)用和挑戰(zhàn)進行分析和研究。

1 智能電網(wǎng)大數(shù)據(jù)處理技術(shù)目前的應(yīng)用現(xiàn)狀

1.1 智能電網(wǎng)的大數(shù)據(jù)

在智能電網(wǎng)中,大數(shù)據(jù)的產(chǎn)生和存在主要有以下三個方面的原因[1]。一方面是對于電網(wǎng)運行以及設(shè)備數(shù)據(jù)方面的內(nèi)容,這方面的數(shù)據(jù)也是智能電網(wǎng)的主要內(nèi)容,同時也是程序最復(fù)雜的部分;第二方面是對于電能的營銷數(shù)據(jù),這也是企業(yè)發(fā)展最為重要的部分,很多企業(yè)都對這部分內(nèi)容投入大量的人力、物力;第三個方面是對于電力企業(yè)的管理數(shù)據(jù)。在這三方面形成了嚴密、系統(tǒng)的整體,但是很多專家和學者都不會采用分層劃分的方式,因此導(dǎo)致多數(shù)學者傾向于數(shù)據(jù)內(nèi)部的層次劃分。同時對于非結(jié)構(gòu)數(shù)據(jù)而言,無法利用數(shù)據(jù)庫的二維模式進行編輯,這種類型的數(shù)據(jù)呈現(xiàn)出高速發(fā)展增長態(tài)勢。在電網(wǎng)系統(tǒng)中,對于智能電網(wǎng)數(shù)據(jù)而言,非結(jié)構(gòu)數(shù)據(jù)占據(jù)極大的比重。

1.2 大數(shù)據(jù)處理技術(shù)的復(fù)雜性

隨著全世界的科學技術(shù)的發(fā)展,對于大數(shù)據(jù)的研究和應(yīng)用不斷發(fā)展和深入,大數(shù)據(jù)的應(yīng)用和科學的發(fā)展都對科學和經(jīng)濟的發(fā)展具有重要的影響[2]?,F(xiàn)階段的國家、企業(yè)之間的競爭都是圍繞大數(shù)據(jù)進行的控制和管理工作。但是對于云計算平臺自身而言,其實用性存在較大的劣勢,對于大數(shù)據(jù)的分析和挖掘等方面無法得到充分的滿足。隨著大數(shù)據(jù)的多元化發(fā)展方向,對于數(shù)據(jù)的發(fā)掘以及處理方面都得到了及時的提高,從而有效利用復(fù)雜的混合計算模式,從而實現(xiàn)智能化電網(wǎng)的大數(shù)據(jù)技術(shù)的局限性突破和發(fā)展。

2 智能電網(wǎng)大數(shù)據(jù)處理技術(shù)所面臨的挑戰(zhàn)

2.1 智能電網(wǎng)中大數(shù)據(jù)的傳輸和存儲技術(shù)

當前信息化技術(shù)的發(fā)展使得電網(wǎng)系統(tǒng)的智能化發(fā)展取得了一定的成效,在電力系統(tǒng)的運行過程中,需要對各個環(huán)節(jié)的相關(guān)數(shù)據(jù)和設(shè)備的監(jiān)測數(shù)據(jù)進行詳細的記錄,這個過程中所產(chǎn)生的海量數(shù)據(jù),使得監(jiān)控系統(tǒng)承擔著比較大的壓力,對于智能電網(wǎng)的進一步發(fā)展有著一定的阻礙作用[3]。在電網(wǎng)數(shù)據(jù)的傳輸方面,通過利用數(shù)據(jù)壓縮的方式可以減少數(shù)據(jù)的傳輸量,保障數(shù)據(jù)傳輸效率的提升。在數(shù)據(jù)的存儲方面,通常情況下使用的方式是分布式文件保存,實現(xiàn)對于大量數(shù)據(jù)的存儲,但是在對于實時數(shù)據(jù)的處理方面存在著一定的缺陷。

在智能電網(wǎng)中,非結(jié)構(gòu)化數(shù)據(jù)占到了比較大的比重,有著十分重要的作用,在存儲方面要將這些海量的非結(jié)構(gòu)化數(shù)據(jù)進行有效轉(zhuǎn)化,是當前智能電網(wǎng)大數(shù)據(jù)處理技術(shù)所面臨的困境。

2.2 大數(shù)據(jù)的實時處理技術(shù)

大數(shù)據(jù)處理技術(shù)在當前的智能電網(wǎng)進程中有著比較重要的作用,在大數(shù)據(jù)技術(shù)的應(yīng)用中,處理速度是一個重要的衡量指標,如果數(shù)據(jù)的規(guī)模過大,所需要的處理時間就比較長,當數(shù)據(jù)規(guī)模超過處理技術(shù)的承受能力,會對電網(wǎng)的正常運行造成一定的影響,這就需要保障數(shù)據(jù)傳輸、分析以及處理的速度。大數(shù)據(jù)云計算系統(tǒng)雖然能夠為智能電網(wǎng)提供品質(zhì)快速的服務(wù),但是也有可能會造成網(wǎng)絡(luò)堵塞現(xiàn)象,會使得電網(wǎng)的服務(wù)器運行受到影響。

2.3 可視化分析技術(shù)

智能電網(wǎng)在運行過程中會產(chǎn)生大量的數(shù)據(jù),而對這些數(shù)據(jù)進行及時有效的處理,同時在有限的顯示屏內(nèi)展示給用戶,這也是當前智能電網(wǎng)大數(shù)據(jù)處理所面臨的嚴峻挑戰(zhàn)。利用可視化技術(shù)能夠有效的處理這些數(shù)據(jù),并逐漸的用于智能電網(wǎng)中,該技術(shù)運用的是高度集成技術(shù)、高分辨率的圖像以及交互工具給用戶提供的數(shù)據(jù)處理結(jié)果[4]。同時還要保障智能電網(wǎng)數(shù)據(jù)網(wǎng)絡(luò)的質(zhì)量,對整個網(wǎng)絡(luò)系統(tǒng)進行定期的檢測和維護,如果出現(xiàn)故障,要結(jié)合出現(xiàn)故障的現(xiàn)象采用相關(guān)的技術(shù)進行分析處理,在根源上解除故障,保障數(shù)據(jù)網(wǎng)絡(luò)正常運轉(zhuǎn)。

3 結(jié)語

現(xiàn)階段,隨著信息化技術(shù)的普及應(yīng)用,我國電力系統(tǒng)的智能化進程有著比較好的效果,大數(shù)據(jù)處理技術(shù)成為當前智能電網(wǎng)中維護電網(wǎng)安全穩(wěn)定運行的主要措施。云計算為智能電網(wǎng)的數(shù)據(jù)處理、傳輸、存儲提供了的平臺,保障了智能電網(wǎng)中的大數(shù)據(jù)可以得到及時有效的處理,為電網(wǎng)的樹立運行提供一定的保障作用。但是隨著技術(shù)的進一步發(fā)展,以及智能化程度的進一步加深,大數(shù)據(jù)處理在傳輸、存儲等方面存在著一定的局限性,受到了比較嚴峻的挑戰(zhàn),因此需要相關(guān)的工作人員進行不斷的努力和創(chuàng)新,探索出一種有效的解決方法,促進我國智能電網(wǎng)的穩(wěn)定健康發(fā)展。

主站蜘蛛池模板: 化州市| 兴海县| 抚松县| 南和县| 法库县| 邵阳县| 和平县| 阿勒泰市| 武威市| 饶平县| 贵定县| 安丘市| 昌都县| 甘南县| 桓台县| 新乡市| 林芝县| 资兴市| 万州区| 汶川县| 金乡县| 佛山市| 大方县| 宝坻区| 鲁山县| 桂东县| 深圳市| 和平县| 嵊泗县| 泰州市| 白沙| 涪陵区| 平顺县| 黔江区| 新蔡县| 自贡市| 岳普湖县| 大田县| 德惠市| 武鸣县| 凤山县|