日韩偷拍一区二区,国产香蕉久久精品综合网,亚洲激情五月婷婷,欧美日韩国产不卡

在線客服

大數(shù)據(jù)量解決方案實用13篇

引論:我們?yōu)槟砹?3篇大數(shù)據(jù)量解決方案范文,供您借鑒以豐富您的創(chuàng)作。它們是您寫作時的寶貴資源,期望它們能夠激發(fā)您的創(chuàng)作靈感,讓您的文章更具深度。

篇1

從建立大數(shù)據(jù)存儲、管理和查詢平臺入手,嘉和美康不斷優(yōu)化應(yīng)用軟件和解決方案,以幫助醫(yī)療單位跨過大數(shù)據(jù)這道門檻。“大數(shù)據(jù)在醫(yī)療行業(yè)的前景和收益是嘉和美康最根本的驅(qū)動力,作為醫(yī)療行業(yè)信息系統(tǒng)的開發(fā)者和建設(shè)者,嘉和美康必須在產(chǎn)品上、技術(shù)上、應(yīng)用上邁上一個大的臺階。”試想,小到輔助臨床醫(yī)生做出更為科學(xué)和準(zhǔn)確的診斷和用藥決策或幫助醫(yī)院根據(jù)患者潛在需求開發(fā)全新個性化服務(wù)及自動服務(wù),大到幫助研究機構(gòu)實現(xiàn)突破性的醫(yī)療方法和藥物革新或支持地區(qū)甚至全國醫(yī)療行業(yè)主管部門優(yōu)化醫(yī)療資源及服務(wù)配置,這些美好規(guī)劃實現(xiàn)的前提即是大數(shù)據(jù)好好為醫(yī)療行業(yè)所用。

“嘉和美康在電子病歷的基礎(chǔ)上,推出了新一代的臨床數(shù)據(jù)中心系統(tǒng)――基于CDR的臨床信息系統(tǒng)。” 范可方介紹,這個系統(tǒng)是面向臨床的深度應(yīng)用,基于CDR平臺借助大數(shù)據(jù)處理技術(shù)推出的新一代產(chǎn)品。

攜手英特爾

篇2

能否置身事外?

隨著網(wǎng)絡(luò)應(yīng)用和多媒體應(yīng)用的興起,互聯(lián)網(wǎng)成為大數(shù)據(jù)的主要來源。隨之而產(chǎn)生的網(wǎng)絡(luò)營銷調(diào)整圍繞大數(shù)據(jù)而展開。淘寶是國內(nèi)公認(rèn)的對用戶數(shù)據(jù)利用得較好的公司——淘寶網(wǎng)利用大數(shù)據(jù)統(tǒng)計分析得到諸如“歐洲杯的球隊勝負(fù)如何影響各隊球衣的銷量?花露水的最佳搭配是電蚊拍還是痱子粉?”等問題的有趣結(jié)果,并以此為依據(jù)來更好地調(diào)整營銷戰(zhàn)略。

近日,阿里巴巴集團宣布,將在集團管理層面設(shè)立首席數(shù)據(jù)官崗位(Chief Data Officer),負(fù)責(zé)全面推進阿里巴巴集團成為“數(shù)據(jù)分享平臺”的戰(zhàn)略。這直接證明了大數(shù)據(jù)對于互聯(lián)網(wǎng)企業(yè)的意義。

別的行業(yè)能不能對大數(shù)據(jù)冷眼旁觀呢?賽迪智庫軟件與信息服務(wù)業(yè)研究所研究員安暉認(rèn)為,雖然目前大數(shù)據(jù)的主要來源是互聯(lián)網(wǎng),但許多以信息流作為核心競爭力,如金融、電信、零售等行業(yè)的機構(gòu)或企業(yè),其數(shù)據(jù)量也不容低估。例如,美國國家海洋和大氣管理局(NOAA)數(shù)據(jù)中心存儲的數(shù)據(jù)超過20PB,沃爾瑪數(shù)據(jù)中心的存儲能力超過4PB,eBay分析平臺每天處理的數(shù)據(jù)量高達(dá)100PB。并且,由于這些機構(gòu)和企業(yè)所存儲的數(shù)據(jù)更加有針對性,其數(shù)據(jù)的價值密度更高,進行大數(shù)據(jù)處理的意義更強,運用大數(shù)據(jù)的需求也更為迫切。

安暉以數(shù)個典型行業(yè)為例來說明大數(shù)據(jù)能帶來什么好處——電信行業(yè)可以從龐大的數(shù)據(jù)中分析出不同群體的差異化需求,實現(xiàn)套餐制定等精準(zhǔn)營銷;制造行業(yè)可以通過整合來自研發(fā)、工程和制造部門的數(shù)據(jù)以實行并行工程,顯著縮短產(chǎn)品上市時間并提高質(zhì)量;交通行業(yè)可以通過整合和處理相關(guān)數(shù)據(jù),實現(xiàn)智能交通(管理)與高效物流調(diào)度。

賽迪顧問軟件與信息服務(wù)業(yè)研究中心研究總監(jiān)胡小鵬認(rèn)為,金融行業(yè)中證券、信用卡、電子支付等數(shù)據(jù)規(guī)模龐大,具有使用對象多樣化、信息可靠性、實時性、保密性要求高等特點;電信行業(yè)中大數(shù)據(jù)主要體現(xiàn)為電信業(yè)務(wù)系統(tǒng)產(chǎn)業(yè)的計費賬務(wù)數(shù)據(jù)和用戶信息(包括客戶資料、客戶服務(wù)數(shù)據(jù)等),不僅數(shù)據(jù)量大,而且保存時間長;能源行業(yè)大數(shù)據(jù)主要集中在石油勘探以及電力生產(chǎn)、經(jīng)營、管理等數(shù)據(jù),具有數(shù)據(jù)量大、分散、類型復(fù)雜等特點。其中,在金融行業(yè),利用大數(shù)據(jù)的挖掘和分析改善用戶體驗、監(jiān)督欺詐行為、驗證合規(guī)性、服務(wù)創(chuàng)新等,從而助力金融智能決策,提升競爭力;而對于電力行業(yè),大數(shù)據(jù)分析有利于電網(wǎng)安全高效運行(安全檢測與控制、災(zāi)難預(yù)警與處理、供電與電力調(diào)度決策支持和負(fù)荷預(yù)測)、電力營銷(用戶用電行為分析)、集團集中管控與精細(xì)化管理等。

大數(shù)據(jù)這場盛宴上,哪個行業(yè)也不愿意沒有一席之地。

誰能站出來?

大數(shù)據(jù)的熱度可以由英特爾、IBM、EMC、惠普等廠商紛紛推出面向大數(shù)據(jù)的一體化產(chǎn)品和解決方案直接反映出來。

然而,一個不能逃避的現(xiàn)實是,雖然越來越多的行業(yè)用戶嘗試應(yīng)用大數(shù)據(jù)的解決方案,但是大多數(shù)行業(yè)用戶對于大數(shù)據(jù)的認(rèn)知仍然比較有限。面對林林總總的不同廠商提供的大數(shù)據(jù)解決方案,用戶分不清這些解決方案的差異在哪里,也就不會真正了解哪種解決方案適合自己。

有用戶反映,大數(shù)據(jù)解決方案容易給人的錯覺是該解決方案就是把數(shù)據(jù)分布存儲,再并行處理。即使采用國外廠商的工具,這些工具成熟度不是特別高,導(dǎo)致解決實際問題的時間過長。

英特爾相關(guān)專家表示,從總體上看,中國大數(shù)據(jù)市場發(fā)展迅速,特征明顯,相關(guān)技術(shù)和應(yīng)用可改進和提升的空間巨大。而且大數(shù)據(jù)要落地,必須實現(xiàn)包括芯片商、軟件企業(yè)等在內(nèi)的IT基礎(chǔ)設(shè)施與服務(wù)層平臺的開放。

英特爾在硬件上的領(lǐng)先無需多言。在軟件層面,考慮到Hadoop的開源特性,很多廠商都有機會在Hadoop的基礎(chǔ)上推出產(chǎn)品,但行業(yè)解決方案提供商面臨的一個苦惱是,他們不得不進行底層開發(fā)。實際上,底層解決方案是有很多共性的。對行業(yè)解決方案提供商來說,如果有一個由可靠廠商優(yōu)化過的平臺再好不過了。利用這個平臺,行業(yè)解決方案提供商可以拋開重復(fù)的、無意義的勞動,將注意力和精力更加集中在行業(yè)特點上,進而開發(fā)出滿足行業(yè)所需的實打?qū)嵉男袠I(yè)解決方案。在這種情況下,英特爾適時地推出了英特爾Hadoop發(fā)行版,打造一個優(yōu)秀的、高價值的底層平臺。

對于如何從大數(shù)據(jù)中發(fā)掘價值,英特爾指出,這需要在IT基礎(chǔ)設(shè)施與服務(wù)層、數(shù)據(jù)組織與管理層、數(shù)據(jù)分析與發(fā)現(xiàn)層、決策支持與IT服務(wù)層全面引入新的技術(shù),特別是在堪稱大數(shù)據(jù)應(yīng)用“載體”的IT基礎(chǔ)設(shè)施與服務(wù)層,采用基于開放架構(gòu)的平臺將是最佳選擇。

O‘Reilly Strata和Open Source Convention大會委員會主席Edd Dumbill曾指出,使大數(shù)據(jù)真正變得強大的方式之一就是讓上層程序員可以將精力放在數(shù)據(jù)而非底層Hadoop設(shè)施的抽象特征上。他們編寫更簡短的程序,能夠更清晰地表達(dá)出對數(shù)據(jù)所做的處理。這些將有助于為非程序員創(chuàng)建更好的工具。

延伸到企業(yè)層面,“行業(yè)解決方案提供商需要穩(wěn)定性和可用性都足夠好的平臺。在這樣的平臺上,行業(yè)解決方案提供商可以從不必要的重復(fù)性勞動中解放出來,從而把更多的精力放在提供差異化特色方案和服務(wù)上。”英特爾亞太研發(fā)有限公司總經(jīng)理、英特爾軟件與服務(wù)事業(yè)部中國區(qū)總經(jīng)理何京翔的看法類似。進而,他解讀了英特爾Hadoop發(fā)行版的優(yōu)勢:“英特爾Hadoop發(fā)行版的優(yōu)勢在于:處理接近于實時;能在英特爾平臺上實現(xiàn)最優(yōu)化的性能,比非英特爾發(fā)行版有成倍的增長;通過和電信、智能城市、醫(yī)療等行業(yè)客戶的合作,英特爾Hadoop還做了更進一步的優(yōu)化。”

除了提供平臺,英特爾(中國)行業(yè)合作與解決方案部中國區(qū)總監(jiān)凌琦強調(diào),英特爾還會把大數(shù)據(jù)解決方案的研究和服務(wù)作為投資部門的重點。英特爾的風(fēng)險投資部門也對大數(shù)據(jù)中所涉及的關(guān)鍵平臺、關(guān)鍵應(yīng)用、提供商,給予關(guān)注。

行業(yè)側(cè)重點

英特爾硬件平臺的特點讓其可以用“通吃”來形容,行業(yè)特色則由軟件來體現(xiàn)。

篇3

大掌控、大智匯、大洞察

在大數(shù)據(jù)成為流行詞之前,微軟便已著手于大數(shù)據(jù)的應(yīng)用與研發(fā),例如微軟Bing的高質(zhì)量搜索結(jié)果,便是通過分析超過100PB的數(shù)據(jù)得到的。微軟大數(shù)據(jù)解決方案的目標(biāo),是讓所有用戶都能獲得來自任何數(shù)據(jù)有價值的洞察力。

微軟大中華區(qū)副總裁兼市場戰(zhàn)略部副總經(jīng)理、大中華區(qū)首席云戰(zhàn)略官謝恩偉介紹,為了實現(xiàn)這一目標(biāo),微軟為大數(shù)據(jù)解決方案制定了全面的戰(zhàn)略——大掌控、大智匯、大洞察。

大掌控,即“支持所有數(shù)據(jù)類型的現(xiàn)代化的管理層”。微軟大數(shù)據(jù)解決方案的數(shù)據(jù)管理平臺可以無縫地存儲和處理包括結(jié)構(gòu)化、非結(jié)構(gòu)化和實時數(shù)據(jù)在內(nèi)的所有類型的數(shù)據(jù)。微軟推出的HDInsight是一種適合企業(yè)使用的、基于HDP的Hadoop服務(wù),它將Windows的簡易性和可管理性帶給Hadoop,提供了結(jié)合Hadoop的擴展平臺,并為大數(shù)據(jù)提供了靈活且可擴展的云。

大智匯,即“搜索并結(jié)合廣泛數(shù)據(jù),進行先進分析與精煉,從而提高數(shù)據(jù)價值的富集層”。微軟大數(shù)據(jù)解決方案,通過將數(shù)據(jù)和模型與公開的數(shù)據(jù)服務(wù)相結(jié)合,實現(xiàn)了突破性的數(shù)據(jù)發(fā)現(xiàn),例如自動發(fā)現(xiàn)與共享防火墻外部的和第三方的數(shù)據(jù)源等。

大洞察,即“用戶熟悉的工具可為用戶提供具有直觀洞察力的洞悉層”。微軟大數(shù)據(jù)解決方案可以使客戶通過熟悉的由Hive add-in for Excel生成的Excel界面,從Hadoop功能中獲取有價值的洞察力,也可經(jīng)由企業(yè)熟悉的BI工具,如SQL Server 分析服務(wù)、PowerPivot和通過Hive Open Database Connectivity 驅(qū)動生成的Power View來分析Hadoop中的非結(jié)構(gòu)化數(shù)據(jù)。

數(shù)據(jù)分析結(jié)果要“傻瓜化”

“我們要將挖掘與分析的結(jié)果直觀呈現(xiàn),轉(zhuǎn)換為用戶真正需要的有價值的洞察力。” 微軟全球高級副總裁、大中華區(qū)董事長兼首席執(zhí)行官賀樂賦說。

篇4

移動設(shè)備爆炸帶來變革機會

云計算會吸引更多人上網(wǎng),接入更多設(shè)備,從而產(chǎn)生更多海量數(shù)據(jù)——這個即將出現(xiàn)的循環(huán)將帶來巨大的機會。

《數(shù)字商業(yè)時代》:云計算的出現(xiàn)讓全世界所有信息和通信技術(shù)覆蓋的地方,都試圖通過技術(shù)來生成一個數(shù)字化的投影。這種更徹底的數(shù)字化浪潮將為商業(yè)和經(jīng)濟帶來怎樣的影響?

柏安娜:云計算從提出到取得飛速發(fā)展是最近五年的事,它在面向消費者和企業(yè)的相關(guān)服務(wù)及應(yīng)用的數(shù)量都在快速增加。云計算模式很有吸引力,它可以在低運營和低擁有成本的基礎(chǔ)上進行大規(guī)模的擴展,而且它具有按需提供服務(wù)的能力,因為它的基礎(chǔ)設(shè)施是共享的。可以看到,中國和美國的云建設(shè)都在飛速發(fā)展。這就像一個虛擬的循環(huán),隨著越來越多的人上網(wǎng)——目前有23億人上網(wǎng),他們會購買更多設(shè)備。這些設(shè)備與數(shù)據(jù)中心連接,需要建設(shè)云基礎(chǔ)設(shè)施來支持這些設(shè)備。這會推動新服務(wù)和解決方案的創(chuàng)新,從而吸引更多人上網(wǎng)。這些推動了云計算的發(fā)展,并推動相關(guān)服務(wù)的發(fā)展。在這個令人驚嘆的循環(huán)中,隨之帶來的是我們從未想過的新式服務(wù)和解決方案。就像你所說的,我們現(xiàn)在真正處于數(shù)字創(chuàng)新時代,新服務(wù)在線上不停地涌現(xiàn),因為我們能夠在云中進行新功能的快速部署。

《數(shù)字商業(yè)時代》:與這種數(shù)字化浪潮最為匹配的技術(shù),似乎就是大數(shù)據(jù)分析技術(shù),現(xiàn)在和未來一段時間內(nèi),有哪些因大數(shù)據(jù)技術(shù)而生的商業(yè)模式值得人們關(guān)注?

柏安娜:一直有很多企業(yè)數(shù)據(jù),但從來沒有分析和利用這些數(shù)據(jù)的高效方式。這種情況下,數(shù)據(jù)就沒有發(fā)揮作用。現(xiàn)在圍繞大數(shù)據(jù)有很多行業(yè)創(chuàng)新。一個是計算成本繼續(xù)增加,例如橫向擴展存儲等。一個重大成本是這些數(shù)據(jù)的存儲成本,傳統(tǒng)存儲方式太過昂貴。因此,你看到存儲創(chuàng)新,基于英特爾平臺的橫向擴展存儲。然后是圍繞開源數(shù)據(jù)分析解決方案的大量創(chuàng)新。Hadoop是個非常好的開源框架,讓你能夠提取所有這些數(shù)據(jù),高效地存儲并實時分析。計算存儲平臺和分析解決方案相結(jié)合,讓企業(yè)和消費者都能看到重大數(shù)據(jù)。有個很好的例子,中國政府要求電信運營商為消費者提供90天的交易記錄,讓消費者能夠上網(wǎng)了解過去90天的所有消費情況,這是一個重大的大數(shù)據(jù)問題,涉及的數(shù)據(jù)量也非常巨大。我們與電信運營商合作,利用Hadoop向他們提供一個穩(wěn)定、優(yōu)化的Hadoop平臺以分析和報告這些信息,從而滿足政府的監(jiān)管要求。我們目前是Hadoop框架的分銷商,我們現(xiàn)在所做的是以前從未做過的事情。

數(shù)據(jù)就是價值

大數(shù)據(jù)時代,IT將不再是成本,而成為價值。

《數(shù)字商業(yè)時代》:有跡象表明在云計算與數(shù)據(jù)的時代它將開始主導(dǎo)企業(yè)業(yè)務(wù)的發(fā)展甚至是變成一個核心業(yè)務(wù),簡而言之就是變成企業(yè)的盈利中心,你對這一趨勢有何看法?

篇5

尤其是隨著社交網(wǎng)絡(luò)、電子商務(wù)以及物聯(lián)網(wǎng)的發(fā)展,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)并存,無論是數(shù)據(jù)的類型、來源還是數(shù)量等方面,都已十分復(fù)雜。而依靠傳統(tǒng)的IT技術(shù),已經(jīng)很難對這些海量數(shù)據(jù)進行高效的分析。因此,是否能夠找到一套涵蓋業(yè)務(wù)、技術(shù)和IT基礎(chǔ)架構(gòu)的全面的大數(shù)據(jù)解決方案,就成為IT服務(wù)商決勝大數(shù)據(jù)市場的關(guān)鍵因素之一。

而這也正是榮之聯(lián)公司與Alpine公司合作,共同拓展國內(nèi)大數(shù)據(jù)市場的重要原因。“Alpine公司在大數(shù)據(jù)處理方面有著很多創(chuàng)新的技術(shù)和面向各個行業(yè)的解決方案,而這些可以幫助我們很好的解決國內(nèi)行業(yè)用戶所面臨的大數(shù)據(jù)問題。”王東輝說。

其實,對于大數(shù)據(jù),榮之聯(lián)公司并不陌生。“過去幾年,我們幫助華大基因等企業(yè)建設(shè)了巨大的數(shù)據(jù)庫,計算量超過200萬億次,我們的生物云也馬上要,數(shù)據(jù)量將會更大。而如何在生物行業(yè)中結(jié)合大數(shù)據(jù)分析,也是過去一年多我們一直在討論的問題。”榮之聯(lián)公司總經(jīng)理張彤介紹道。

篇6

譯者:盛楊燕

出版:浙江人民出版社

作者簡介:

馬克?馮?里吉門納姆

全球頂尖大數(shù)據(jù)影響力人物之一,一站式大數(shù)據(jù)商店Datafloq創(chuàng)始人,荷蘭Data Donderdag大數(shù)據(jù)論壇聯(lián)合發(fā)起人,在大數(shù)據(jù)、區(qū)塊鏈、物聯(lián)網(wǎng)和顛覆性創(chuàng)新方面擁有豐富的經(jīng)驗。

據(jù)測算,我們現(xiàn)在每兩天產(chǎn)生的數(shù)據(jù),相當(dāng)于人類文明伊始至2003年所a生的數(shù)據(jù)的總和。而且,隨著幾乎所有的一切事物都被數(shù)字化,人們預(yù)計可用數(shù)據(jù)量將每兩年翻一番。大數(shù)據(jù)能讓企業(yè)制定更好的決策,從而提高效率、節(jié)約成本、增加收入。但是許多企業(yè)還沒有認(rèn)識到它的好處,即便認(rèn)識到了,也許還不知道如何利用。

大數(shù)據(jù)早已開始改變商業(yè)乃至社會的運作方式,企業(yè),尤其是中小企業(yè),若要避免被時代甩在后面的命運,就必須跟上構(gòu)建大數(shù)據(jù)戰(zhàn)略和關(guān)鍵大數(shù)據(jù)能力的浪潮。

任何數(shù)字化的事物皆為數(shù)據(jù)。越來越多的事物被數(shù)字化,并與互聯(lián)網(wǎng)產(chǎn)生聯(lián)系,這意味著公司正在接收全新領(lǐng)域的數(shù)據(jù)。物聯(lián)網(wǎng)運動表明,任何產(chǎn)品或設(shè)備都能與互聯(lián)網(wǎng)相連,因此都能提供數(shù)據(jù)。

當(dāng)然,數(shù)據(jù)自身并不具有價值。真正有價值的是在數(shù)據(jù)基礎(chǔ)上所做的分析,以及數(shù)據(jù)被轉(zhuǎn)換成的信息,甚至是知識和智慧。數(shù)據(jù)的價值在于企業(yè)如何利用數(shù)據(jù)打造一個以信息為中心的企業(yè),并將企業(yè)的決策制定立足于數(shù)據(jù)分析所釋放的基礎(chǔ)知識。

大數(shù)據(jù)見者有份――你只需拓寬視野去發(fā)現(xiàn)在哪里能找到它,以及如何分析和使用它。

常有人說,中小型企業(yè)無法加入大數(shù)據(jù)運動或者不能開發(fā)大數(shù)據(jù)戰(zhàn)略,因為他們擁有的數(shù)據(jù)太少。然而2012 年,SAP公司的一項研究顯示,接受采訪的中小型企業(yè)高管中,76%將大數(shù)據(jù)看作一個機會。SAP公司負(fù)責(zé)業(yè)務(wù)分析、數(shù)據(jù)庫和技術(shù)的執(zhí)行副總裁史蒂夫? 盧卡斯曾說:“每個公司都應(yīng)該考慮大數(shù)據(jù)戰(zhàn)略,無論大小。”即便企業(yè)擁有的數(shù)據(jù)較少,也可以開發(fā)大數(shù)據(jù)路線圖,成為以信息為中心的企業(yè)。那么,對于中小型企業(yè),今后的大數(shù)據(jù)機會是什么,應(yīng)如何利用自己的“小數(shù)據(jù)”?

這里所說的“小數(shù)據(jù)”并不是IBM 定義的小體量、批處理和結(jié)構(gòu)化的數(shù)據(jù)。相反,小數(shù)據(jù)可以是任何形式的數(shù)據(jù),結(jié)構(gòu)化或非結(jié)構(gòu)化、實時處理或批處理均可。小數(shù)據(jù)只表示數(shù)據(jù)量少,即數(shù)吉字節(jié)或上太字節(jié),而達(dá)不到拍字節(jié)。

的確,一些中小型企業(yè)可能沒有很多數(shù)據(jù),但是,即便這樣,它們也有供應(yīng)商或經(jīng)銷商。如果這些公司開始合作和分享數(shù)據(jù),它們的可用數(shù)據(jù)量就會成倍增長。我們也看到過這個過程曾發(fā)生在大型跨國公司身上,例如,耐克和同行分享它所有供應(yīng)商的數(shù)據(jù),這使得供應(yīng)鏈中的其他公司可以補充和使用該數(shù)據(jù)庫,借此做出更聰明的決策。

當(dāng)中小型企業(yè)開始使用數(shù)據(jù),并將自己的數(shù)據(jù)與供應(yīng)商的數(shù)據(jù)相結(jié)合時,它們就會突然擁有充足的數(shù)據(jù),這些數(shù)據(jù)可以經(jīng)分析和可視化處理后,用于改進決策。它們也可以將已有的少量數(shù)據(jù)與公開數(shù)據(jù)集結(jié)合。開放權(quán)限的公開數(shù)據(jù)集現(xiàn)在已越來越多,同時,公共平臺也在不斷增多,這樣,中小型企業(yè)就可以從這些平臺上免費下載或花錢購買更多的數(shù)據(jù)集。將個人數(shù)據(jù)與公開數(shù)據(jù)結(jié)合起來,一方面能增加分析可用的數(shù)據(jù)量;另一方面可以獲得全新的結(jié)果,比如發(fā)現(xiàn)新市場或目標(biāo)群體。

中小型企業(yè)不應(yīng)該只看到公司已經(jīng)擁有和收集的數(shù)據(jù),而應(yīng)該樂于接受收集數(shù)據(jù)的新方式。在這個問題上,創(chuàng)意是關(guān)鍵,因為最終只要有傳感器加入進來,任何產(chǎn)品都能轉(zhuǎn)化為數(shù)據(jù)。傳感器的成本正日漸降低,在已有產(chǎn)品上安裝傳感器可以傳遞全新的數(shù)據(jù)集,從而獲得意料之外的見解。

大數(shù)據(jù)不僅體現(xiàn)在大體量、高速度上,也體現(xiàn)在多樣性上。大數(shù)據(jù)強大之處就在于能夠?qū)⒎墙Y(jié)構(gòu)化和結(jié)構(gòu)化的數(shù)據(jù)集結(jié)合,獲得新的見解。非結(jié)構(gòu)化數(shù)據(jù)有許多來源,包括社交數(shù)據(jù)、視覺資料、文檔、電子郵件,乃至語音數(shù)據(jù)。將多個較小的數(shù)據(jù)集結(jié)合與將大型數(shù)據(jù)集結(jié)合相比,它們產(chǎn)生的見解是一樣的。因此,數(shù)吉字節(jié)產(chǎn)生的見解對中小型企業(yè)的作用,與數(shù)拍字節(jié)或艾字節(jié)數(shù)據(jù)產(chǎn)生的見解對大型跨國公司的作用相當(dāng)。

Real Business的杰米?特納曾說:“由于資源有限……靈活性和敏捷性對于中小型企業(yè)極為重要。”的確,它們必須找到與它們可用資源相配的解決方案。這些企業(yè)可以使用由較小的也更為靈活的大數(shù)據(jù)創(chuàng)業(yè)公司創(chuàng)建的基于云端的解決方案,而不必選擇IBM、賽仕或惠普開發(fā)的完整大數(shù)據(jù)解決方案。此外,它們可以使用開源工具自行創(chuàng)建大數(shù)據(jù)解決方案。盡管后者仍然需要專業(yè)人員,但是成本已有下降。開源工具是免費的(當(dāng)然不提供任何服務(wù)),商用硬件也逐漸變得便宜起來。

無疑,大數(shù)據(jù)適用的不僅僅是大型企業(yè),中小型企業(yè)也有很多機會,能從它們已有的數(shù)據(jù)或新數(shù)據(jù)集中獲得有價值的見解。實際上,中小型企業(yè)確實需要多一點創(chuàng)新來解決大數(shù)據(jù)難題。它們必須跳出思維定式,發(fā)現(xiàn)企業(yè)內(nèi)部和外部的數(shù)據(jù)機會。不過說到底,如果大型企業(yè)想充分利用大數(shù)據(jù),這一點同樣適用。

篇7

大數(shù)據(jù)處理之所以困難,是因為它有別于傳統(tǒng)關(guān)系型數(shù)據(jù)。數(shù)據(jù)量大(Volume)、速度生成快(Velocity)、數(shù)據(jù)類型多(Variety)、價值密度低(Value)是大數(shù)據(jù)的4大特點,即“4V”。尤為值得一提的是,大數(shù)據(jù)雖然量大,但與關(guān)系型數(shù)據(jù)相比,其同等數(shù)據(jù)量的經(jīng)濟價值要小得多,如果還像傳統(tǒng)數(shù)據(jù)那樣投入就得不償失。

“大數(shù)據(jù)并不適合用傳統(tǒng)數(shù)據(jù)處理技術(shù)進行存儲和分析,因而我們需要一種新的技術(shù),而Hadoop正是這樣一種數(shù)據(jù)處理技術(shù)。”Hadoop China發(fā)起人、中科院計算所查禮博士表示。據(jù)悉,Hadoop是一種開源軟件架構(gòu),能夠自由部署在x86平臺上,其獨特的分布式和可擴展性都非常適合大數(shù)據(jù)的處理。這幾年Hadoop市場發(fā)展迅猛,且出現(xiàn)很多開源版本,如Cloudera公司的Distribution Including Apache Hadoop是其中頗有影響力的一個。

篇8

在大數(shù)據(jù)產(chǎn)品方面,曙光已經(jīng)成竹在胸。針對結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),曙光都能提供匹配的存儲解決方案。比如,針對非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),曙光的ParaStor就是一個非常好的存儲平臺。再比如,曙光利用自己的文件系統(tǒng)對Hadoop平臺進行了優(yōu)化,可以更好地發(fā)揮Hadoop的優(yōu)勢。惠潤海表示:“當(dāng)前,雖然大數(shù)據(jù)帶來的直接收入并不如預(yù)期,但是大數(shù)據(jù)市場的前景十分廣闊。”

不趕一體機的時髦

在大數(shù)據(jù)市場上,一體機越來越流行,曙光卻一直按兵不動。“我們一定要透過現(xiàn)象看本質(zhì)。一體機的核心還是軟件。”惠潤海表示,“將相關(guān)硬件拼湊在一起,再加上Hadoop就能構(gòu)成一個簡單的一體機,但是這樣的產(chǎn)品會有競爭力嗎?我們只要推出一個新產(chǎn)品,就希望這個產(chǎn)品具有一定的競爭力,能夠在市場上取得較高的占有率,而不是搞噱頭。”

在大數(shù)據(jù)業(yè)務(wù)方面,曙光的核心競爭力主要體現(xiàn)在它有一支強大的技術(shù)服務(wù)團隊,可以為用戶提供代碼級開發(fā)的服務(wù)能力。由于自身的復(fù)雜性以及存在Bug,Hadoop通常不能直接使用,這就需要大數(shù)據(jù)解決方案廠商在Hadoop平臺上進行相關(guān)調(diào)整和優(yōu)化。“由于數(shù)據(jù)種類繁多,數(shù)據(jù)量又大,如何快速將大數(shù)據(jù)導(dǎo)入到大數(shù)據(jù)挖掘系統(tǒng)中是一個難題。如果廠商沒有過硬的技術(shù)服務(wù)團隊,不能根據(jù)數(shù)據(jù)的情況對解決方案進行調(diào)整和優(yōu)化,那么大數(shù)據(jù)應(yīng)用落地就將成為一句空話。大數(shù)據(jù)應(yīng)用之所以難普及,一個重要的原因就是具有代碼級開發(fā)能力的專業(yè)技術(shù)人才太少了。”惠潤海表示。

在推廣大數(shù)據(jù)解決方案時,曙光并沒有與某一個應(yīng)用軟件廠商簽定產(chǎn)品捆綁協(xié)議。不過,曙光還是針對一些主流的應(yīng)用軟件進行了方案的優(yōu)化。舉例來說,在結(jié)構(gòu)化數(shù)據(jù)處理方面,曙光主要針對Oracle數(shù)據(jù)庫進行了方案優(yōu)化。曙光利用基礎(chǔ)的硬件,結(jié)合自己的大數(shù)據(jù)挖掘系統(tǒng),可以將Oracle數(shù)據(jù)庫的查詢速度至少提升50倍,而成本只有傳統(tǒng)的“小型機+高端存儲”解決方案的十分之一。

存儲服務(wù)器已獲認(rèn)可

篇9

雖然隨著互聯(lián)網(wǎng)、移動互聯(lián)的普及,最早起源于決策支持系統(tǒng)的商業(yè)智能已成為科技企業(yè)爭相布局的領(lǐng)域――提供商業(yè)智能解決方案的著名IT廠商包括微軟、IBM、Oracle、SAP、Informatica、Microstrategy、SAS、Royalsoft等。但是,并非所有的商業(yè)智能都能夠賺到錢。

“商業(yè)智能包括很多的內(nèi)容:數(shù)據(jù)可視化、報告、操作平臺等,然而QlikTech關(guān)注其最為重要的一點,我們稱為分析發(fā)現(xiàn)(discovery)。”Terry Smagh解釋道。據(jù)悉,QlikTech公司已經(jīng)推出商業(yè)智能軟件QlikView 11.2版本,以及Business Discovery(商業(yè)探索平臺),“作為一個內(nèi)嵌式的存儲平臺,對于大數(shù)據(jù)的分析、分類、標(biāo)簽等都在Discovery平臺上進行。”

作為QlikTech公司的大客戶,海爾公司行銷網(wǎng)絡(luò)覆蓋全中國,而且銷售的產(chǎn)品種類繁多,包括高端的企業(yè)級產(chǎn)品、低端的消費品。“海爾公司產(chǎn)生的數(shù)據(jù)量不僅大,而且分布廣泛,例如他們的零售店、公司本部的數(shù)據(jù)庫等。”Terry Smagh說,“但是,海爾最想知道的是怎樣可以分析哪一家分銷店做得好、哪一款產(chǎn)品賣得好,更細(xì)致的就是在什么時間段這款產(chǎn)品賣得好,這樣它才能高效地組織規(guī)劃和生產(chǎn)。這時,我們就把海爾的各方數(shù)據(jù)放到Discovery平臺上,分析不同的區(qū)域哪一款產(chǎn)品賣得好,是什么樣的人在買這款產(chǎn)品,以及買這類產(chǎn)品的人同時也買了哪些關(guān)聯(lián)的產(chǎn)品。”

篇10

對于企業(yè)和CIO來說,如何利用大數(shù)據(jù)技術(shù)來管理并挖掘其數(shù)據(jù)的商業(yè)價值,使企業(yè)更迅速的占領(lǐng)市場先機,給客戶帶來更好的體驗,是企業(yè)用戶更加強勁的發(fā)展動力。

EMC高級存儲事業(yè)部總裁Amitahb Srivastava表示,從技術(shù)的角度來看,IT部門將繼續(xù)看到智能的轉(zhuǎn)移,更多的數(shù)據(jù)中心智能會轉(zhuǎn)移到軟件控制平面中,而軟件控制平面則利用基于Web的技術(shù),訪問作為一個整體的計算、網(wǎng)絡(luò)和存儲資源(例如軟件定義的數(shù)據(jù)中心)。隨著數(shù)據(jù)中心尋求更容易的技術(shù)消費方式,云計算模式的原則也將增多,除了效率和敏捷性等,還將包括簡單性。廠商對此做出的反應(yīng)是,提供基礎(chǔ)架構(gòu)解決方案,這類解決方案打包整合同類最佳技術(shù),并有可能使物理地點不再重要,而通過中央控制點管理多種多樣的基礎(chǔ)架構(gòu)。

由于越來越多的機構(gòu)尋求以更有效的方式保留和利用非結(jié)構(gòu)化數(shù)據(jù),所以對象存儲系統(tǒng)將迅速增加。要在企業(yè)中使用對象,具備擴展對象存儲系統(tǒng)的能力將很重要。類似地,對于用對象建立應(yīng)用的開發(fā)人員而言,支持基于云的開放接口也將是非常關(guān)鍵的。

投資飆升

企業(yè)在大數(shù)據(jù)領(lǐng)域的投資也在激增。湯森路透的數(shù)據(jù)顯示,2011年,風(fēng)險投資人給大數(shù)據(jù)相關(guān)的初創(chuàng)公司投資24.7億美元,與2010年的15.3億美元和2009年的11億美元相比,有顯著增長。

2013年,大數(shù)據(jù)初創(chuàng)公司界將會看到,僅向市場提供單點式工具而不是集成式解決方案的公司結(jié)果會很不妙。盡管這類公司能為某些客戶提供價值,但是隨著市場的成熟,最好的廠商將變得更大、更強,而其余的廠商恐怕只能為自己的產(chǎn)品舉行一場大數(shù)據(jù)“庭院拍賣會”了。

大數(shù)據(jù)幾乎在所有人的心目中都占有一席之地。社交和移動技術(shù)相結(jié)合產(chǎn)生的影響、不斷需要增強競爭優(yōu)勢以及無處不在的分析軟件和服務(wù),都將改變廠商和最終用戶消費信息的方式。基礎(chǔ)技術(shù)已經(jīng)有了。Hadoop數(shù)據(jù)生態(tài)系統(tǒng)的出現(xiàn)已經(jīng)使經(jīng)濟實惠的存儲和PB級數(shù)據(jù)處理變成了現(xiàn)實。富有創(chuàng)新精神的企業(yè)正在利用這些技術(shù)開發(fā)一類全新的、實時的、以數(shù)據(jù)為主導(dǎo)的應(yīng)用。隨著這一趨勢的繼續(xù),我們將看到一群新的創(chuàng)新公司,對于10年前我們無法想象怎樣解決的問題,他們會開發(fā)出解決方案。

安全更加重要

從廣義來講,大數(shù)據(jù)產(chǎn)業(yè)鏈貫穿了數(shù)據(jù)整個生命周期,從產(chǎn)生、采集到存儲,這和整個鏈條是有點相似的,從狹義來看,大數(shù)據(jù)的產(chǎn)業(yè)鏈主要涵蓋數(shù)據(jù)的管理分析、呈現(xiàn)和應(yīng)用的環(huán)節(jié)。大數(shù)據(jù)更加容易成為網(wǎng)絡(luò)攻擊的顯著目標(biāo),從近兩年所發(fā)生的一些互聯(lián)網(wǎng)公司的用戶帳號的信息失竊情況來看,大數(shù)據(jù)當(dāng)中數(shù)據(jù)量比較大,它的信息量也比較大,所以黑客更加樂意去攻擊,因為相對來說成本是比較低的。

大數(shù)據(jù)當(dāng)中加大了隱私泄漏的風(fēng)險,企業(yè)在數(shù)據(jù)存儲和部署的時候,有些時候容易交叉存儲,把敏感信息一不小心部署到公開的或者不應(yīng)該部署到服務(wù)器上,更容易加大隱私的泄漏。

大數(shù)據(jù)數(shù)據(jù)量比較大,對于現(xiàn)在的存儲和目前安全防范措施可能提出新的挑戰(zhàn)。同時,大數(shù)據(jù)分析技術(shù)也容易被黑客利用攻擊當(dāng)中去。

大數(shù)據(jù)可能成為可持續(xù)攻擊的載體,APT是這兩年提的比較多的詞,它有一個顯著特點:病毒代碼非常強大,有些攻擊目標(biāo)病毒很難隱藏其間,對于龐大的大數(shù)據(jù)來講,這樣的惡意軟件隱藏在數(shù)據(jù)詞當(dāng)中很難被發(fā)現(xiàn)。所以說有可能大數(shù)據(jù)成為高級的可持續(xù)APT的攻擊載體,這一點可能是需要大家非常注意的。

一位著名的法國哲學(xué)家說過:“萬變不離其宗。”這句話也可以用來反映2013年信息安全技術(shù)趨勢的很多方面。現(xiàn)在,一種新的網(wǎng)絡(luò)安全模式已經(jīng)就緒。要提供真正的深度防御,采用智能驅(qū)動的信息安全模式比以往任何時候都更有必要。這種新模式將涉及多個方面,包括使用大數(shù)據(jù)分析方式,為來自眾多數(shù)據(jù)源的大量數(shù)據(jù)提供背景信息,以及時產(chǎn)生可作為行動依據(jù)的信息。

篇11

由于數(shù)據(jù)體量的激增、結(jié)構(gòu)類型的復(fù)雜、但數(shù)據(jù)的低密度價值以及處理速度的提升等新特性的出現(xiàn),促使人們對大數(shù)據(jù)進行研究與實踐。現(xiàn)階段,大數(shù)據(jù)已逐漸滲透到各個行業(yè)和業(yè)務(wù)職能領(lǐng)域。在安防領(lǐng)域中,視頻監(jiān)控以其直觀、準(zhǔn)確、及時和信息內(nèi)容豐富而廣泛應(yīng)用于許多場合,在安防系統(tǒng)中的重要性日益突出,海量的視頻數(shù)據(jù)需要得到有效的處理,迫切需要與大數(shù)據(jù)技術(shù)相融合。大數(shù)據(jù)可以有效促進視頻監(jiān)控業(yè)務(wù)的發(fā)展,推動視頻監(jiān)控業(yè)務(wù)的展開,兩者之間的融合勢在必行。

2 大數(shù)據(jù)

在信息技術(shù)中,“大數(shù)據(jù)”是指一些使用目前現(xiàn)有數(shù)據(jù)庫管理工具或傳統(tǒng)數(shù)據(jù)處理應(yīng)用很難處理的大型而復(fù)雜的數(shù)據(jù)集。其挑戰(zhàn)包括采集、管理、存儲、搜索、共享、分析和可視化。大數(shù)據(jù)技術(shù)描述了新一代的技術(shù)和架構(gòu),使用高速獲取、發(fā)現(xiàn)和/或分析方法提取的各種各樣數(shù)據(jù)量非常大的數(shù)據(jù)價值。

3 視頻監(jiān)控數(shù)據(jù)

在視頻監(jiān)控領(lǐng)域,大數(shù)據(jù)的特點可用4個V來概括:Volume、Variety、Velocity、Value。

3.1 數(shù)據(jù)體量巨大(Volume)

高清化帶來單個監(jiān)控點數(shù)據(jù)量以指數(shù)級增長,例如單個1080PIPC30天就會產(chǎn)生2T數(shù)據(jù);IP化大聯(lián)網(wǎng)后,各平臺實現(xiàn)互聯(lián),平安城市網(wǎng)內(nèi)攝像頭數(shù)量達(dá)數(shù)萬數(shù)十萬級別,其數(shù)據(jù)量之巨大可想而知。

3.2 數(shù)據(jù)類型繁多(Variety)

視頻監(jiān)控領(lǐng)域的視頻編碼格式包括:H.264、MPEG-4、MJPEG等多樣化的編碼方式。同時隨著各類物聯(lián)網(wǎng)技術(shù)融入到視頻監(jiān)控業(yè)務(wù),匯聚了包括各種傳感器、IT、CT系統(tǒng)產(chǎn)生的多樣的數(shù)據(jù)。

3.3 處理速度快(Velocity)

視頻數(shù)據(jù)隨時間快速增長,并以持續(xù)順序到達(dá)。隨著數(shù)據(jù)量的增加,哪怕對TB級別的數(shù)據(jù)進行視頻內(nèi)容的數(shù)據(jù)分析和檢索,采用串行計算模式都可能需要花費數(shù)小時的計算,已遠(yuǎn)遠(yuǎn)不能勝任時效性的需求。

3.4 價值密度低(Value),效率要求高

在視頻監(jiān)控業(yè)務(wù)中,價值密度的高低與數(shù)據(jù)總量的大小成反比。一小時的視頻監(jiān)控內(nèi)容,可能有用的數(shù)據(jù)僅僅只有一兩秒。

4 視頻監(jiān)控大數(shù)據(jù)分析架構(gòu)

結(jié)合視頻監(jiān)控業(yè)務(wù)特點,引入Hadoop的架構(gòu),以頂層設(shè)計的視角來構(gòu)建面向大數(shù)據(jù)的視頻監(jiān)控架構(gòu)。面向大數(shù)據(jù)視頻監(jiān)控邏輯架構(gòu)包括:

4.1 數(shù)據(jù)源層

包括實時數(shù)據(jù)和非實時數(shù)據(jù)。實時數(shù)據(jù)指IP攝像頭和傳感器產(chǎn)生的實時流媒體數(shù)據(jù)。非實時數(shù)據(jù)是指從DVR、編碼器、第三方系統(tǒng)導(dǎo)入的媒體數(shù)據(jù)。

4.2 大數(shù)據(jù)存儲層

采用HDFS(Hadoop Distributed File System)和HBase(Hadoop Database)實現(xiàn)數(shù)據(jù)低成本、高可靠的管理。把采集的流視頻保存在HDFS集群內(nèi),并通過HBase建立訪問的索引。把傳統(tǒng)NVR和專用存儲進行重構(gòu),納入到整體的分布式文件系統(tǒng)中。

4.3 大數(shù)據(jù)計算層

實現(xiàn)智能分析和數(shù)據(jù)挖掘。通過MapReduce把對視頻的分析進行分解,充分利用閑置資源,把計算任務(wù)分配給多臺服務(wù)器進行并行計算分析;另一方面,根據(jù)智能分析產(chǎn)生的視頻元數(shù)據(jù),通過Hive挖掘視頻元數(shù)據(jù)的價值信息。

4.4 業(yè)務(wù)及管理層

實現(xiàn)設(shè)備和業(yè)務(wù)管理。基于Zookeeper組成的服務(wù)器集群,可以保證業(yè)務(wù)系統(tǒng)的無故障運營,基于Ganglia實現(xiàn)對攝像頭等設(shè)備的監(jiān)管。

基于大數(shù)據(jù)的視頻架構(gòu),本質(zhì)上是把視頻數(shù)據(jù)作為最有價值的資產(chǎn),以數(shù)據(jù)作為核心來構(gòu)建技術(shù)架構(gòu),重點解決海量的視頻數(shù)據(jù)分散和集中式存儲并存、多級分布等問題,極大提升非結(jié)構(gòu)化視頻數(shù)據(jù)讀寫的效率,為視頻監(jiān)控的快速檢索、智能分析提供端到端的解決方案。

5 視頻監(jiān)控數(shù)據(jù)挖掘技術(shù)

視頻數(shù)據(jù)挖掘的目的是建立底層視頻數(shù)據(jù)到高層語義信息之間的映射關(guān)系,由于這種映射關(guān)系比較復(fù)雜,一般采用多層次的信息提取及映射技術(shù)來最終實現(xiàn)數(shù)據(jù)挖掘過程:從底層視頻數(shù)據(jù)中首先提取底層圖像特征信息,然后利用目標(biāo)檢測、目標(biāo)跟蹤、特征比對等手段從圖像特征中提取元語義信息,最后將元語義信息融合為高層的語義級描述信息。主要采用的視頻數(shù)據(jù)挖掘技術(shù)有:視頻濃縮與檢索技術(shù)、視頻圖像信息數(shù)據(jù)庫等技術(shù)。

視頻濃縮與檢索技術(shù)主要是利用圖像處理、模式識別、海量數(shù)據(jù)分類存儲以及搜索等技術(shù),對海量的存儲錄像等原始信息進行分析和挖掘,對于目標(biāo)特征、目標(biāo)行為、目標(biāo)間關(guān)聯(lián)關(guān)系這3大類信息內(nèi)容,形成各種分類的特征信息庫、元數(shù)據(jù)和索引等,并提供統(tǒng)一接口供外部應(yīng)用進行搜索,以期實現(xiàn)快速關(guān)聯(lián)和定位。

視頻圖像信息庫建設(shè)和海量數(shù)據(jù)的處理、分析、檢索,是提高效率的有力手段。通過視頻智能分析技術(shù),把海量的視頻數(shù)據(jù)進行濃縮,提取特征摘要,減少存儲空間。同時,視頻圖像信息庫針對結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),通過數(shù)據(jù)的多個副本分布式保存方式,有效節(jié)約存儲空間,使系統(tǒng)架構(gòu)更加穩(wěn)定和可擴展,并提供安全的負(fù)載均衡和容錯機制。

6 結(jié)束語

隨著IT新興技術(shù)的興起,視頻監(jiān)控進入網(wǎng)絡(luò)化時代,大數(shù)據(jù)技術(shù)在視頻監(jiān)控領(lǐng)域的廣闊發(fā)展路徑已經(jīng)顯現(xiàn)。如何從海量視頻數(shù)據(jù)中提取有用信息,把大數(shù)據(jù)技術(shù)和視頻監(jiān)控業(yè)務(wù)相互融合,打造大數(shù)據(jù)時代的視頻監(jiān)控解決方案,無疑是監(jiān)控系統(tǒng)各個行業(yè)用戶都迫切需要解決的問題。

參考文獻

[1]陳明.大數(shù)據(jù)概論[M].北京:科學(xué)出版社,2015.

[2]嚴(yán)權(quán)鋒.移動視頻監(jiān)控系統(tǒng)中的關(guān)鍵技術(shù)研究[J].無線電通信技術(shù),2008,34(4):33-35.

作者簡介

周英鳳(1980-),女。碩士學(xué)位。現(xiàn)為井岡山大學(xué)電子與信息工程學(xué)院講師。研究方向為嵌入式圖像處理等。

篇12

工業(yè)化和計算機技術(shù)的發(fā)展,使制造系統(tǒng)每天產(chǎn)生的數(shù)據(jù)量不斷增加,整個制造業(yè)產(chǎn)生的數(shù)據(jù)量遠(yuǎn)高于其他行業(yè)[1]。面對日益復(fù)雜的制造業(yè)生產(chǎn)系統(tǒng),通過保存其運行過程中的中間數(shù)據(jù),并對數(shù)據(jù)進行研究,能夠解決當(dāng)前的系統(tǒng)建模手段無法解決的問題。傳統(tǒng)的數(shù)據(jù)分析方案一般先將數(shù)據(jù)保存到關(guān)系型數(shù)據(jù)庫中,然后借助聯(lián)機分析、處理等手段為決策提供支持[2]。

當(dāng)面對制造業(yè)的海量數(shù)據(jù)時,可能會有如下缺陷[3]:

(1)數(shù)據(jù)來自不同地區(qū)的工作站、傳感器等,而且數(shù)據(jù)格式不統(tǒng)一,既有結(jié)構(gòu)化數(shù)據(jù),也有非結(jié)構(gòu)化數(shù)據(jù),不利于處理;

(2)聯(lián)機分析處理過程中會有大量的數(shù)據(jù)移動操作,當(dāng)數(shù)據(jù)量達(dá)到PB級時,大量數(shù)據(jù)移動造成的開銷變得難以接受。

因此,有必要研究并實現(xiàn)一個能夠合并存儲異構(gòu)數(shù)據(jù)、并且可以完成基于大數(shù)據(jù)的CIMS數(shù)據(jù)分析處理的平臺。本文將Hadoop大數(shù)據(jù)技術(shù)引入到CIMS海量工業(yè)數(shù)據(jù)的監(jiān)測和分析中。

二、研究現(xiàn)狀

范劍青[4]闡述了大數(shù)據(jù)獨有的特點,說明大數(shù)據(jù)提供的海量數(shù)據(jù)給統(tǒng)計、處理以及統(tǒng)計估算和檢驗帶來的問題。Jiang 等人[5]對電子商務(wù)網(wǎng)站的大量商品數(shù)據(jù)進行分析處理,提出了基于Hadoop的協(xié)同過濾算法。

Duke能源公司模擬大數(shù)據(jù)解決方案,使維護專家遠(yuǎn)程觀看設(shè)備和記錄異常指數(shù),甚至可以及時采取糾正操作,但還不能真正實現(xiàn)大數(shù)據(jù)分析和處理平臺。通用電氣(GE)于2013年推出其大數(shù)據(jù)分析平臺,用以將云平臺中的工業(yè)機器產(chǎn)生的海量數(shù)據(jù)轉(zhuǎn)化為實時信息,此平臺可以認(rèn)為是第一個能夠真正管理工業(yè)海量數(shù)據(jù)的平臺,但是難以處理來自多個數(shù)據(jù)源的數(shù)據(jù)。美國國家儀器公司和IBM聯(lián)手推出InfoSphereStreams大數(shù)據(jù)解決方案,能夠以很高的數(shù)據(jù)吞吐率分析來自多個數(shù)據(jù)源的信息,但其處理帶有一定的數(shù)據(jù)延時,實時性不佳。

為解決海量數(shù)據(jù)處理時的實時性問題,本文擬采用開源的Storm流處理技術(shù),并借助類SQL和Piglatin等過程化語言擴展,以實時監(jiān)控整個大數(shù)據(jù)平臺。

三、大數(shù)據(jù)技術(shù)在CIMS監(jiān)測與分析平臺中的設(shè)計

工業(yè)應(yīng)用數(shù)據(jù)在數(shù)據(jù)量上遠(yuǎn)超普通應(yīng)用,其海量數(shù)據(jù)存儲的要求超過了傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的存儲能力。另外,工業(yè)應(yīng)用數(shù)據(jù)也由傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)擴展到結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)并存,對這些數(shù)據(jù)格式以及數(shù)據(jù)類型都存在不同的工業(yè)數(shù)據(jù)進行采集、分析和處理的方式有別于傳統(tǒng)方式,因此需要對監(jiān)測和分析平臺進行設(shè)計,從軟件結(jié)構(gòu)、通信方式以及數(shù)據(jù)存儲方式等各個方面進行分析。

3.1 CIMS海量數(shù)據(jù)監(jiān)測與分析平臺的設(shè)計

在將大數(shù)據(jù)技術(shù)應(yīng)用于CIMS海量數(shù)據(jù)的監(jiān)測與分析時,海量的工業(yè)數(shù)據(jù)不再存放在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,而是存放到HDFS分布式文件系統(tǒng)上。因此,軟件結(jié)構(gòu)設(shè)計要與Hadoop的HDFS文件系統(tǒng)相對應(yīng)。

3.1.1 軟件結(jié)構(gòu)

本文設(shè)計的CIMS海量工業(yè)數(shù)據(jù)監(jiān)測和分析平臺(以下簡稱“平臺”)采用Master-slave主從架構(gòu),Hadoop集群的NameNode節(jié)點作為監(jiān)測和分析平臺的管理節(jié)點,完成數(shù)據(jù)采集、數(shù)據(jù)分析等各功能的功能模塊是工作節(jié)點。管理節(jié)點管理整個集群的相關(guān)信息,并維護包括節(jié)點的主機名、IP地址等機器狀態(tài)。工作節(jié)點可以根據(jù)工業(yè)應(yīng)用的需求進行靈活的配置,也可以動態(tài)增加或減少。

平臺主要分為如下部分[6]:客戶端、消息中間件、數(shù)據(jù)查詢模塊、數(shù)據(jù)分析模塊、數(shù)據(jù)采集模塊以及Hadoop集群。客戶端接收用戶請求,向平臺發(fā)出任務(wù)請求;數(shù)據(jù)采集模塊、數(shù)據(jù)查詢模塊以及數(shù)據(jù)分析模塊是平臺的功能組件,分別提供工業(yè)大數(shù)據(jù)分析流程中的對應(yīng)功能[7]:數(shù)據(jù)采集模塊對外提供數(shù)據(jù)的訪問接口,其功能是從不同的數(shù)據(jù)源獲取數(shù)據(jù),并將這些數(shù)據(jù)存儲到Hadoop的HDFS文件系統(tǒng)上。

數(shù)據(jù)查詢模塊從HDFS文件系統(tǒng)中查詢數(shù)據(jù)的存儲索引,并返回給數(shù)據(jù)分析模塊;數(shù)據(jù)分析模塊中實現(xiàn)不同的數(shù)據(jù)分析配置方法,并交由MapReduce框架分布式地實現(xiàn)數(shù)據(jù)分析任務(wù)。

3.1.2 系統(tǒng)功能模塊

平臺中監(jiān)測和分析的數(shù)據(jù)一般都是離散數(shù)據(jù),所以選擇消息中間件作為通信管理模塊,消息中間件實現(xiàn)平臺中各個模塊間的通信。

以功能節(jié)點上線為例,由于管理節(jié)點存儲了所有節(jié)點的狀態(tài)信息,所以為保證整個集群信息的一致性,功能節(jié)點上線時需要先向管理節(jié)點注冊其信息,管理節(jié)點會向消息中間件訂閱“注冊”這一主題,消息中間件接收到訂閱請求后會創(chuàng)建相應(yīng)的隊列,并持續(xù)監(jiān)聽此隊列的消息情況。消息隊列中的消息是以文本格式存在的,本文的消息傳遞方式采用XML。平臺中的操作請求都會發(fā)送給任務(wù)管理模塊,由其解析后,再發(fā)送給相應(yīng)的功能模塊執(zhí)行。

數(shù)據(jù)采集模塊從基于HDFS文件系統(tǒng)的Hbase數(shù)據(jù)庫中獲取來自客戶端的數(shù)據(jù),由于工業(yè)數(shù)據(jù)的采集并發(fā)量可能比較大,因此要在采集端部署大量數(shù)據(jù)庫;除此之外,ETL工具負(fù)責(zé)將異構(gòu)數(shù)據(jù)源的數(shù)據(jù)抽取處理進行數(shù)據(jù)清洗。Hadoop上的數(shù)據(jù)分析模塊能夠完成多維分析,由于MapReduce的具備很強的并行處理能力,因此分析維度的增加并不會使數(shù)據(jù)分析的開銷顯著增加,這無疑是傳統(tǒng)的數(shù)據(jù)分析平臺所無可比擬的。

3.1.3 數(shù)據(jù)存儲方式

傳統(tǒng)的關(guān)系型數(shù)據(jù)庫不能很好的支持結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),HDFS分布式文件系統(tǒng)克服了這一缺陷,將非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)都以文件形式存放,實現(xiàn)了廉價而又可靠數(shù)據(jù)存儲。

工業(yè)數(shù)據(jù)可能來自多個不同的數(shù)據(jù)源,平臺借助中間件屏蔽了它們之間的異構(gòu)性,然后將這些原本異構(gòu)的數(shù)據(jù)存儲到HDFS文件系統(tǒng)中。這種異構(gòu)數(shù)據(jù)存儲方式不需要昂貴的存儲設(shè)備,廉價的服務(wù)器即可組成可靠的存儲集群;另外,存儲集群節(jié)點同時還是Hadoop集群的工作節(jié)點,提高了數(shù)據(jù)存儲節(jié)點的利用率[8]。

四、大數(shù)據(jù)技術(shù)在CIMS監(jiān)測與分析平臺的性能優(yōu)化

軟件工程思想中,不能只設(shè)計軟件的結(jié)構(gòu),同時要對軟件進行不斷優(yōu)化。平臺集中了多個數(shù)據(jù)來源的數(shù)據(jù),因此平臺間的數(shù)據(jù)傳遞吞吐量比較大;另外,平臺各個組件間的網(wǎng)絡(luò)依賴關(guān)系比較復(fù)雜,合理分配網(wǎng)絡(luò)資源對提升平臺性能有重要的影響。

系統(tǒng)動力學(xué)研究復(fù)雜系統(tǒng)的結(jié)構(gòu)、功能以及動態(tài)行為模式,可以利用系統(tǒng)動力學(xué)的相關(guān)原理和方法,對本文設(shè)計的平臺進行模擬仿真研究。

在進行實際的大數(shù)據(jù)平臺仿真分析時,為搭建Hadoop集群本文配置4臺服務(wù)器,其中一臺作為NameNode,其他服務(wù)器作為DataNode。具體的配置信息如表1所示:

系統(tǒng)動力學(xué)分析軟件系統(tǒng)的基本思路是把與系統(tǒng)相關(guān)的網(wǎng)絡(luò)變量轉(zhuǎn)換為因果圖及流圖,因果圖表征了變量間的相互影響關(guān)系,流圖說明了變量的反饋積累;然后利用DYNAMO方程描述變量間的關(guān)系。因果圖反應(yīng)了平臺中的反饋回路的正負(fù)極性,表示出系統(tǒng)元素間基本的相互影響關(guān)系。

基于以上分析,對本文設(shè)計的平臺進行系統(tǒng)動力學(xué)分析如下:由于平臺是一個非線性時變系統(tǒng),影響其性能的因素不僅包括管理節(jié)點、消息中間件、Hadoop集群等,還包含網(wǎng)絡(luò)帶寬、服務(wù)器配置等客觀因素。根據(jù)系統(tǒng)建模目的,可以知道系統(tǒng)邊界應(yīng)該包括如下因素:用戶請求數(shù)目、數(shù)據(jù)采集模塊采集到的輸入數(shù)據(jù)、消息中間件隊列中的消息數(shù)量、消息中間件路由消息的延遲、Hadoop集群的性能等。

平臺的系統(tǒng)邊界確定后,接下來需要分析系統(tǒng)邊界內(nèi)的元素間的影響關(guān)系,以及它們之間是否有因果關(guān)系。經(jīng)分析可知,用戶請求的增加會導(dǎo)致消息中間件隊列中的消息增加,而消息中間件路由消息的延遲降低會降低系統(tǒng)中消息傳遞的整體時延。

消息中間件的工作性能和系統(tǒng)各個模塊的工作時延組成正反饋回路,說明消息中間件和系統(tǒng)模塊是正相關(guān)的,所以平臺整體性能的提升依賴于消息中間件和系統(tǒng)模塊的合理資源配置。

消息中間件的各種配置參數(shù),比如響應(yīng)速度、吞吐量等參數(shù)對提升平臺的分析性能影響很大,在優(yōu)化消息中間件的各種參數(shù)后,比較本文設(shè)計的基于大數(shù)據(jù)的數(shù)據(jù)分析平臺和傳統(tǒng)的工業(yè)數(shù)據(jù)平臺的性能,在同時對PB級別的工業(yè)數(shù)據(jù)進行分析時,當(dāng)CPU數(shù)目相同時,響應(yīng)速度的結(jié)果如表2所示:

對于不同的數(shù)據(jù)級別,兩種大數(shù)據(jù)平臺的處理效果如表3所示:

由結(jié)果可知,在處理相同的數(shù)據(jù)量時,在響應(yīng)速度的性能上,本文設(shè)計的工業(yè)數(shù)據(jù)分析平臺要優(yōu)于傳統(tǒng)的數(shù)據(jù)分析平臺。

當(dāng)處理不同的數(shù)據(jù)量時,隨著數(shù)據(jù)量的增加,傳統(tǒng)的大數(shù)據(jù)處理平臺的處理時間也呈現(xiàn)顯著增加,而本文設(shè)計的大數(shù)據(jù)處理平臺處理時間是線性的,明顯優(yōu)于傳統(tǒng)大數(shù)據(jù)處理平臺。

五、總結(jié)與展望

本文首先介紹了Hadoop大數(shù)據(jù)技術(shù),分析了其HDFS文件系統(tǒng)和MapReduce計算框架;

接下來對基于大數(shù)據(jù)技術(shù)的CIMS海量工業(yè)數(shù)據(jù)監(jiān)測和分析平臺進行設(shè)計,從軟件結(jié)構(gòu)、通信方式以及數(shù)據(jù)存儲方式等各個方面進行了分析。最后利用系統(tǒng)動力學(xué)的原理,對影響平臺性能的因素進行了研究。

與Duke能源公司模擬的大數(shù)據(jù)解決方案相比,本文設(shè)計的平臺已經(jīng)能夠采集、分析并處理海量數(shù)據(jù),真正意義上在工業(yè)領(lǐng)域引入了大數(shù)據(jù)技術(shù);而且此平臺還能夠處理來自多個數(shù)據(jù)源的數(shù)據(jù),比通用電氣的大數(shù)據(jù)分析平臺具備一定的優(yōu)勢。

參 考 文 獻

[1] 韓燕波,趙卓峰.面向大規(guī)模感知數(shù)據(jù)的實時數(shù)據(jù)流處理方法及關(guān)鍵技術(shù)[J].計算機集成制造系統(tǒng).2013,19(3):641-653.

[2] 鄧華鋒,劉云生,肖迎元. 分布式數(shù)據(jù)流處理系統(tǒng)的動態(tài)負(fù)載平衡技術(shù)[J]. 計算機科學(xué). 2007(07)

[3] 胡茂勝.基于數(shù)據(jù)中心模式的分布式異構(gòu)空間數(shù)據(jù)無縫集成技術(shù)研究[D].武漢:中國地質(zhì)大學(xué),2012.

[4] 楊林青,李湛,牟雁超等.面向大規(guī)模數(shù)據(jù)集的并行化Top-k Skyline查詢算法[J].計算機科學(xué)與探索.2014, 12(26).

[5] J.Jiang, J. Lu, G. Zhang, and G. Long. Scaling-up item-based collaborative filtering recommendation algorithm based on hadoop. SERVICES, pp. 490 -497, 2011.

篇13

BI是過程不是產(chǎn)品

地處中西部并不發(fā)達(dá)的山西省,山西移動卻成為國內(nèi)第一家構(gòu)建BI系統(tǒng)的電信運營商。談起當(dāng)時系統(tǒng)建設(shè)的出發(fā)點,王峰認(rèn)為,這還是基于公司對數(shù)據(jù)、數(shù)據(jù)分析和數(shù)據(jù)挖掘的重要性有著充分的認(rèn)識。山西移動在信息化建設(shè)的過程中,并不看重經(jīng)驗,看重的是數(shù)據(jù)的價值,這也成就了公司在決策層面的領(lǐng)先。

對于當(dāng)初系統(tǒng)建設(shè)的難點,王峰認(rèn)為,一個純硬件平臺或軟件系統(tǒng)的搭建,不是很困難;困難的是,系統(tǒng)建設(shè)完成之后要有效地推動業(yè)務(wù)。與業(yè)務(wù)運營支撐系統(tǒng)和客服系統(tǒng)建設(shè)完成就必須使用的產(chǎn)品特性不同,經(jīng)營分析系統(tǒng)更像推動業(yè)務(wù)轉(zhuǎn)化的一個過程,而不是一個建設(shè)好就必須使用的產(chǎn)品。正因為如此,經(jīng)營分析系統(tǒng)并不處于必要的業(yè)務(wù)流程之內(nèi),業(yè)務(wù)人員可以用也可以不用。這就使系統(tǒng)的推廣并不是一件簡單的事情。

在經(jīng)營分析系統(tǒng)部署初期,移動通信市場正處于一個爆炸式發(fā)展的時期,市場蛋糕以幾何級數(shù)增大,這使得經(jīng)營分析系統(tǒng)的作用并不是那么明顯。為此,山西移動甚至整個移動集團內(nèi)部在2002年到2004年有很多關(guān)于經(jīng)營分析系統(tǒng)的培訓(xùn),目的就是推動系統(tǒng)在業(yè)務(wù)中的使用。

而現(xiàn)在的電信領(lǐng)域,已經(jīng)不是十年前那個迅速膨大的市場蛋糕了,各種移動通信標(biāo)準(zhǔn)的競爭、運營商和終端生產(chǎn)商的聯(lián)合使得競爭不斷加劇。以前,即使沒有決策和營銷,市場也會發(fā)展起來,系統(tǒng)可以查驗數(shù)據(jù)就可以了。而近些年來的制度改革特別是去年3G牌照的發(fā)放,使得產(chǎn)品和營銷策略的制定越來越需要精細(xì)化。在如此激烈的競爭環(huán)境下,BI系統(tǒng)支撐業(yè)務(wù)發(fā)展、進行營銷、引導(dǎo)決策的重要作用就凸現(xiàn)了出來。王峰舉了一個例子:以前移動運營商可以捆綁銷售來電顯示服務(wù),現(xiàn)在是不被允許的。這時就需要系統(tǒng)根據(jù)大量數(shù)據(jù)通過復(fù)雜的運算發(fā)現(xiàn)不同的用戶需要來電顯示服務(wù)的概率有多大,然后再對目標(biāo)用戶進行服務(wù)推送。精確化的用戶和服務(wù)匹配,比廣撒網(wǎng)式的廣告營銷效果要好得多,有效地節(jié)約了成本。

大數(shù)據(jù)分析要更精細(xì)化

對大數(shù)據(jù)時代的到來,用戶數(shù)量眾多的電信運營商感覺尤為深刻。山西移動每天流入經(jīng)營分析系統(tǒng)的數(shù)據(jù)量大約為300GB,龐大的數(shù)據(jù)量帶來了巨大的潛在價值和決策能力。

對于大數(shù)據(jù)時代的數(shù)據(jù)分析,王峰認(rèn)為,山西移動的片區(qū)精細(xì)化管理就已經(jīng)體現(xiàn)了大數(shù)據(jù)分析的特性。面對北京媒體,王峰以北京為例來說明片區(qū)管理的大數(shù)據(jù)特性。片區(qū)管理是地理緯度上的客戶分塊,例如北京包括東城區(qū)、西城區(qū)、海淀區(qū)等。而每個區(qū)又可以向下細(xì)分,比如西城區(qū)可以細(xì)化到金融街區(qū),最后細(xì)化到移動基站的一個扇面區(qū)域。如果一個用戶在昌平入網(wǎng),卻經(jīng)常在金融街區(qū)通話,就要把用戶定位成一個金融街用戶。每一個細(xì)化的片區(qū)由一個片區(qū)經(jīng)理管轄,金融街的片區(qū)經(jīng)理就要對定義成金融街的客戶進行服務(wù),例如問候短信或新產(chǎn)品通知。片區(qū)經(jīng)理不僅要對現(xiàn)有客戶進行服務(wù),還要對潛在客戶進行挖掘。山西移動要求片區(qū)經(jīng)理對自己管轄區(qū)域內(nèi)的每一棟寫字樓的每一家企業(yè)進行記錄并錄入片區(qū)化支持系統(tǒng)。根據(jù)掌握的多種數(shù)據(jù),對用戶進行精細(xì)化分類和深度挖掘,進而進行相關(guān)的營銷活動,這種線上線下的共同合作,體現(xiàn)的正是大數(shù)據(jù)分析的特點。

片區(qū)化支持系統(tǒng)由Teradata公司協(xié)助山西移動搭建,目前已經(jīng)完成了兩期。該系統(tǒng)以一年前Teradata提出的地理空間解決方案為基礎(chǔ)架構(gòu)。Teradata的CTO寶立明介紹說,地理空間解決方案并非專門為電信運營商打造的技術(shù),只是由于電信運營商的用戶可以通過手機定位其所處的位置,這一優(yōu)勢使電信運營商成為地理空間解決方案的第一批用戶。而山西移動又是這一批用戶中的領(lǐng)先者。

山西移動的經(jīng)營分析系統(tǒng)作用于營銷層面主要包含兩個核心應(yīng)用。一個是核心客戶保有。核心客戶是指用戶UP值貢獻高、漫游行為較多,有重要影響的高價值客戶。如果某個核心客戶在一段時間內(nèi)的主叫時長出現(xiàn)了顯著的下降,統(tǒng)計分析部就會在核心客戶保有的應(yīng)用上發(fā)現(xiàn)這個用戶,認(rèn)定該核心客戶有發(fā)展為普通客戶的可能,并且把與之相關(guān)的客戶明細(xì)提供給相關(guān)的市場營銷部門,由營銷部門對其實施保有措施。另一個應(yīng)用是離網(wǎng)用戶關(guān)懷,與核心客戶保有應(yīng)用相比,該應(yīng)用是更針對離網(wǎng)客戶的預(yù)警。

對于海量數(shù)據(jù)的保有,山西移動的策略是數(shù)據(jù)與應(yīng)用同在。一個應(yīng)用上線有自己的生命周期,應(yīng)用由哪個部門提出、應(yīng)用的主要功能、開發(fā)人員、何時上線、預(yù)計使用期限等信息都會被記錄在生命周期管理系統(tǒng)中。當(dāng)應(yīng)用達(dá)到使用期限,根據(jù)實際效果如果沒有必要進行生命周期的延長,應(yīng)用下線時就將相關(guān)的數(shù)據(jù)評估為無效,進行清理。

在經(jīng)營分析系統(tǒng)上線的近十年時間中,山西移動的數(shù)據(jù)分析和決策進程正變得越來越科學(xué)。雖然在外部用戶層面,客戶很難感知到經(jīng)營分析系統(tǒng)的存在,但山西移動正通過它進行著各種各樣的營銷活動,從而為用戶提供更精確的服務(wù)。而在山西移動內(nèi)部,經(jīng)營分析系統(tǒng)的內(nèi)部客戶對數(shù)據(jù)的滿意度得到了非常大的提升,管理層和業(yè)務(wù)部門在決策上獲得了更好的支撐。

未來屬于將數(shù)據(jù)轉(zhuǎn)化為產(chǎn)品的公司。作為電信運營商,山西移動有著先天的優(yōu)勢可以掌握海量的有效數(shù)據(jù)。面對大數(shù)據(jù)時代的來臨,多角度深層次的數(shù)據(jù)分析也正在成為山西移動統(tǒng)計分析部門支持決策的重要手段。

鏈接

Teradata通過收購應(yīng)對大數(shù)據(jù)分析

主站蜘蛛池模板: 新沂市| 黄山市| 宜春市| 洛宁县| 镇雄县| 绥棱县| 土默特右旗| 滦南县| 巫溪县| 阿拉善右旗| 平远县| 临猗县| 巴马| 新泰市| 白河县| 双柏县| 澄江县| 潮安县| 内丘县| 远安县| 宁明县| 伊金霍洛旗| 宁武县| 鹤壁市| 交口县| 平顺县| 易门县| 思茅市| 南乐县| 马龙县| 奈曼旗| 姚安县| 天镇县| 普安县| 灵台县| 博白县| 交口县| 广汉市| 广元市| 凭祥市| 福海县|