在大數(shù)據(jù)概念如此流行的今天,為什么要讀這本書?中國(guó)大數(shù)據(jù)領(lǐng)軍人、大數(shù)據(jù)創(chuàng)新與實(shí)踐一線專家、百萬(wàn)級(jí)暢銷書《大數(shù)據(jù)時(shí)代》中文版譯者周濤,耗時(shí)三年,將海量真實(shí)案例披沙揀金呈現(xiàn)給廣大讀者。在本書中,您將看到大數(shù)據(jù)在智慧交通系統(tǒng)、個(gè)性化醫(yī)療、智慧學(xué)校以及金融和商業(yè)等領(lǐng)域的中國(guó)式創(chuàng)新實(shí)踐,并為未來(lái)大數(shù)據(jù)的發(fā)展提供有可行性的路徑指南。 什么樣的人才能在下一個(gè)時(shí)代生存和發(fā)展?大數(shù)據(jù)3.0時(shí)代我們究竟要做些什么?數(shù)據(jù)交易如何讓數(shù)據(jù)資源成為匯聚之地?每個(gè)企業(yè)又該如何成為大數(shù)據(jù)企業(yè)?周濤教授通過(guò)真實(shí)案例告訴讀者:擁有大數(shù)據(jù)的理念,能夠掌握數(shù)據(jù)和運(yùn)用數(shù)據(jù)的人和企業(yè),才能在“一切都被記錄,一切都被分析”的數(shù)據(jù)化時(shí)代得以生存。無(wú)論現(xiàn)在從事什么行業(yè),即便不能掌握一項(xiàng)特定的數(shù)據(jù)技術(shù),了解大數(shù)據(jù)的理念、培養(yǎng)大數(shù)據(jù)的思維模式是非常重要的。學(xué)會(huì)用數(shù)據(jù)說(shuō)話,用數(shù)據(jù)分析的結(jié)果來(lái)證明“哪個(gè)更好,哪個(gè)更壞”并指導(dǎo)我們作出正確決策。 這不是堅(jiān)硬的學(xué)術(shù)專著,而是一部柔軟的情懷之書!沒(méi)有晦澀的文辭,枯燥的說(shuō)教,字里行間洋溢著濃濃的數(shù)據(jù)情懷和拳拳的責(zé)任之心。周濤教授講述了很多在大數(shù)據(jù)領(lǐng)域努力拼搏,希望有所創(chuàng)新的中國(guó)人的故事,相信這些故事背后的理念、技術(shù)和精神能夠喚起更多年輕的創(chuàng)新者,為我們民族的復(fù)興作出自己的貢獻(xiàn)。 領(lǐng)跑大數(shù)據(jù)3.0時(shí)代,大數(shù)據(jù)創(chuàng)新實(shí)踐的扛鼎之作!大數(shù)據(jù)1.0,是將自身業(yè)務(wù)上產(chǎn)生的大量數(shù)據(jù),利用深入的分析使其不斷優(yōu)化,優(yōu)化之后的業(yè)務(wù)產(chǎn)生更多數(shù)據(jù)的正向循環(huán)。大數(shù)據(jù)2.0,是如何把自身業(yè)務(wù)的數(shù)據(jù)用來(lái)解決業(yè)務(wù)以外的其它問(wèn)題,或者如何用業(yè)務(wù)以外的數(shù)據(jù)解決自身業(yè)務(wù)的問(wèn)題。大數(shù)據(jù)3.0,是如何在資本和文化的催化作用下,讓數(shù)據(jù)、技術(shù)、需求和人才等大數(shù)據(jù)創(chuàng)新要素融為一體。三個(gè)版本強(qiáng)調(diào)的不是時(shí)間上的先后順序或邏輯上的依存關(guān)系,而是就其與傳統(tǒng)數(shù)據(jù)應(yīng)用在理念上的差異程度進(jìn)行的劃分。
2015年度十大科技創(chuàng)新人物、百萬(wàn)級(jí)暢銷書《大數(shù)據(jù)時(shí)代》中文版譯者、中國(guó)大數(shù)據(jù)領(lǐng)軍人周濤耗時(shí)三年首部個(gè)人專著橫空出世! 領(lǐng)跑大數(shù)據(jù)3.0時(shí)代,大數(shù)據(jù)創(chuàng)新實(shí)踐的扛鼎之作! 沒(méi)有晦澀的文辭,枯燥的說(shuō)教,字里行間洋溢著濃濃的數(shù)據(jù)情懷與拳拳的責(zé)任之心。睿智瀟灑的文風(fēng)背后是對(duì)大數(shù)據(jù)的一腔樸素濃厚的感情。 這是一部大數(shù)據(jù)在智慧城市、醫(yī)療、教育、金融、商業(yè)等領(lǐng)域的實(shí)踐筆記;更是一部為未來(lái)大數(shù)據(jù)的發(fā)展提供有可行性的路徑指南! 寬帶資本董事長(zhǎng)田溯寧、集團(tuán)執(zhí)行副總裁曾鳴、香港科技大學(xué)教授楊強(qiáng)重磅推薦! 湛廬文化出品。
周濤
天才神童。1歲說(shuō)話,1歲半識(shí)字,2歲學(xué)象棋,3歲打麻將,4歲看武俠小說(shuō)……26歲獲得教育部自然科學(xué)一等獎(jiǎng),27歲獲聘電子科技大學(xué)正教授,29歲獲得中國(guó)青年科技獎(jiǎng)。 學(xué)術(shù)達(dá)人。在《物理報(bào)道》(Physics Reports)、《美國(guó)科學(xué)院院刊》(PNAS)、《自然通訊》(Nature Communication)等國(guó)際SCI期刊和SIGKDD、ICDM等國(guó)際學(xué)術(shù)會(huì)議300余篇,引用13000余次,H指數(shù)為55。入選Elsevier全球影響力中國(guó)學(xué)者名單(物理天文類)。 數(shù)據(jù)少帥。電子科技大學(xué)大數(shù)據(jù)研究中心主任,百萬(wàn)暢銷書《大數(shù)據(jù)時(shí)代》中文譯者,全國(guó)的數(shù)據(jù)挖掘競(jìng)賽平臺(tái)Data Castle的創(chuàng)始人,“2015年度十大科技創(chuàng)新人物”獲得者。 商業(yè)玩家。白手起家,先后創(chuàng)立了數(shù)之聯(lián)、數(shù)聯(lián)銘品、國(guó)信優(yōu)易等知名大數(shù)據(jù)企業(yè),創(chuàng)立和投資的大數(shù)據(jù)企業(yè)總市值過(guò)百億。
自序:在麻瓜和魔法師之間做出選擇
Part.1 大數(shù)據(jù)時(shí)代,用數(shù)據(jù)說(shuō)話
01 從萬(wàn)物皆數(shù)到萬(wàn)事皆數(shù) / 005
主動(dòng)或被動(dòng),我們都是數(shù)據(jù)貢獻(xiàn)者
一切都被記錄,一切都被分析
四大方面,讓數(shù)據(jù)指數(shù)級(jí)增長(zhǎng)
02 從十?dāng)?shù)九表到數(shù)態(tài)萬(wàn)千 / 017
結(jié)構(gòu)化數(shù)據(jù)
非結(jié)構(gòu)化數(shù)據(jù)
03 從隔水相望到阡陌交通 / 029
地點(diǎn)數(shù)據(jù)
個(gè)人數(shù)據(jù)
數(shù)據(jù)與數(shù)據(jù),1 1遠(yuǎn)大于2
大數(shù)據(jù)創(chuàng)新實(shí)踐:
用購(gòu)買記錄給用戶畫像
04 大數(shù)據(jù)和云計(jì)算驅(qū)動(dòng)新工業(yè)革命 / 039
計(jì)算:第三次工業(yè)革命中的新能源
數(shù)據(jù):第三次工業(yè)革命中的新材料
證析:第三次工業(yè)革命中的先進(jìn)工藝技術(shù)
個(gè)性化:大數(shù)據(jù)時(shí)代最顯著的商業(yè)特征
大數(shù)據(jù)創(chuàng)新實(shí)踐:
一張失敗的公交卡
個(gè)性化醫(yī)療,安吉麗娜 朱莉和史蒂夫 喬布斯
Part.2 大數(shù)據(jù)1.0:分析
05 統(tǒng)計(jì)呈現(xiàn)洞見 / 055
抓出非法的MCC套用
打擊“電老鼠”
“抓獲”過(guò)度醫(yī)療和騙保行為
識(shí)別社交網(wǎng)絡(luò)中的垃圾用戶
新浪微博面臨的三大問(wèn)題
快遞員的通話記錄蘊(yùn)藏哪些商機(jī)
付費(fèi)節(jié)目點(diǎn)播最多的是什么
06 關(guān)聯(lián)蘊(yùn)含價(jià)值 / 075
關(guān)聯(lián)規(guī)則挖掘
協(xié)同過(guò)濾
關(guān)聯(lián)分析是尋找因果關(guān)系的利器
大數(shù)據(jù)創(chuàng)新實(shí)踐:
誰(shuí)最關(guān)注超聲波潔面產(chǎn)品
發(fā)現(xiàn)“一月三電號(hào)”僵尸用戶
07 預(yù)測(cè)指導(dǎo)決策 / 089
點(diǎn)擊購(gòu)買類預(yù)測(cè)
基于移動(dòng)軌跡的位置預(yù)測(cè)
鏈路預(yù)測(cè)
大數(shù)據(jù)預(yù)測(cè)的主流方法是什么
大數(shù)據(jù)創(chuàng)新實(shí)踐:
一張信用卡逾期不還款的概率有多大
簽到記錄預(yù)測(cè)用戶的土著化指數(shù)
Part.3 大數(shù)據(jù)2.0:外化
08 尋求外部數(shù)據(jù)的幫助 / 109
從行為數(shù)據(jù)預(yù)測(cè)學(xué)生考試成績(jī)
從食堂打卡記錄中“定位”孤獨(dú)人群
從社會(huì)計(jì)量標(biāo)牌洞察人力資源管理
預(yù)測(cè)離職率和升職率
行為數(shù)據(jù)讓非法集資無(wú)所遁行
09 自身數(shù)據(jù)的外部?jī)r(jià)值 / 129
45個(gè)關(guān)鍵詞實(shí)時(shí)預(yù)測(cè)流感趨勢(shì)
阿里巴巴的“淘CPI”指數(shù)
10 機(jī)器學(xué)習(xí),數(shù)據(jù)外化最神奇的利器 / 139
機(jī)器學(xué)習(xí)三板斧1:特征
機(jī)器學(xué)習(xí)三板斧2:模型
機(jī)器學(xué)習(xí)三板斧3:融合
Part.4 大數(shù)據(jù)3.0:集成
11 交易市場(chǎng):數(shù)據(jù)資源的匯聚地 /155
科研數(shù)據(jù)共享
政府?dāng)?shù)據(jù)開放
全國(guó)可流通數(shù)據(jù)的目錄體系
12 數(shù)據(jù)城堡:數(shù)據(jù)人才的競(jìng)技場(chǎng) / 175
Kaggle,數(shù)據(jù)科學(xué)之家
數(shù)據(jù)城堡,Kaggle模式的中國(guó)嘗試者
13 創(chuàng)新工廠:數(shù)據(jù)技術(shù)的嘉年華 / 185
大數(shù)據(jù)創(chuàng)業(yè)公司困境
大型傳統(tǒng)企業(yè)信息化的難題
構(gòu)建大數(shù)據(jù)挖掘平臺(tái)
建設(shè)大數(shù)據(jù)創(chuàng)新工廠
結(jié)束語(yǔ) 成為大數(shù)據(jù)企業(yè) / 201
致謝 / 211
[結(jié)束語(yǔ)]
成為大數(shù)據(jù)企業(yè)
什么樣的企業(yè)可以稱得上是大數(shù)據(jù)企業(yè)呢?恐怕沒(méi)有人能夠給出一個(gè)的答案。但是,直觀地,我們可能覺(jué)得Google 更像是一個(gè)大數(shù)據(jù)的企業(yè),阿里巴巴也像是一個(gè)大數(shù)據(jù)的企業(yè),而中國(guó)銀行似乎不太像一個(gè)大數(shù)據(jù)的企業(yè),盡管它每天也一樣浸泡在海量的數(shù)據(jù)中。除了具有處理大量數(shù)據(jù)的能力外,之所以Google 和阿里巴巴更像大數(shù)據(jù)的企業(yè),是因?yàn)樗麄冇猩钊氲臄?shù)據(jù)分析工具,利用數(shù)據(jù)分析的結(jié)果直接指導(dǎo)決策,而且經(jīng)常推出基于數(shù)據(jù)分析的創(chuàng)新型應(yīng)用,這還不包括類似于AlphaGo 這樣的奇葩。
這是我第三次以文字的形式談?wù)撊绾纬蔀橐粋€(gè)大數(shù)據(jù)企業(yè)。一是很早以前在“科學(xué)網(wǎng)”上寫的一篇博客,二是為一本名為Code Halos 的書寫的序言。這個(gè)版本可以看作是上兩個(gè)版本的補(bǔ)充和擴(kuò)充,同時(shí)也是本書一些重點(diǎn)內(nèi)容的重述(為了保障本文的獨(dú)立性,可以不依賴本書直接閱讀,少量書中給出過(guò)的文獻(xiàn)和注釋在本文中重復(fù)出現(xiàn)了)。然而遺憾的是,并沒(méi)有一條放之四海皆準(zhǔn)的通往大數(shù)據(jù)企業(yè)的康莊大道,更沒(méi)有點(diǎn)石成金之術(shù)可以讓一個(gè)企業(yè)快速Google化。這篇結(jié)束語(yǔ)只是提出一些看得見摸得著的建議,藏在這些建議背后的大數(shù)據(jù)理念,或許更加重要。
盡管我是用Step1、Step2 這樣的說(shuō)法來(lái)列舉成為大數(shù)據(jù)企業(yè)的措施,但是這些步驟之間并沒(méi)有嚴(yán)格的邏輯上誰(shuí)決定誰(shuí)或者時(shí)間上誰(shuí)先誰(shuí)后的關(guān)系。舉個(gè)例子來(lái)說(shuō),好的辦法當(dāng)然是先有了數(shù)據(jù)標(biāo)準(zhǔn)再整理采集數(shù)據(jù),這樣可以不走任何彎路,但實(shí)際上沒(méi)有數(shù)據(jù),企業(yè)不會(huì)有動(dòng)力做標(biāo)準(zhǔn)建設(shè),做出來(lái)的標(biāo)準(zhǔn)也可能是紙上談兵,不實(shí)用。又比如,數(shù)據(jù)管理平臺(tái)的建設(shè)能夠幫助更好地進(jìn)行數(shù)據(jù)化,但實(shí)際上它多半是數(shù)據(jù)化戰(zhàn)略進(jìn)行了一定程度之后才開始啟動(dòng)建設(shè)的。總體來(lái)說(shuō),寫在更前面位置的,是更基礎(chǔ)的,但是沒(méi)有的依賴關(guān)系。
Step 1. 數(shù)據(jù)化
“數(shù)據(jù)化”浪潮是整個(gè)大數(shù)據(jù)時(shí)代的起點(diǎn),它強(qiáng)調(diào)數(shù)據(jù)就是資產(chǎn),記錄一切可以記錄的數(shù)據(jù),并相信這些數(shù)據(jù)一定會(huì)在某24小時(shí)產(chǎn)生巨大的價(jià)值。顯然,數(shù)據(jù)化是一個(gè)企業(yè)能夠通過(guò)深入數(shù)據(jù)分析,實(shí)現(xiàn)自身優(yōu)化的基礎(chǔ)。
我去長(zhǎng)虹集團(tuán)調(diào)研的時(shí)候,他們告訴我,長(zhǎng)虹電器在自己的生產(chǎn)線上,通過(guò)大量傳感器,記錄生產(chǎn)環(huán)境的溫度、濕度、粉塵度、振動(dòng)強(qiáng)度和噪音強(qiáng)度,等等,通過(guò)這些量化指標(biāo)與產(chǎn)品質(zhì)量的關(guān)聯(lián)分析,得到影響產(chǎn)品優(yōu)品率和良品率的關(guān)鍵因素,再進(jìn)一步通過(guò)控制環(huán)境因素,明顯提高了產(chǎn)品的優(yōu)品率。企業(yè)在日常的經(jīng)營(yíng)管理過(guò)程中,通過(guò)辦公自動(dòng)化系統(tǒng)(OA系統(tǒng)),很多內(nèi)部即時(shí)通訊、郵件往來(lái)、工作分配和業(yè)務(wù)文件上傳下載等日志數(shù)據(jù)都被記錄下來(lái)了。這些數(shù)據(jù)就是寶貴的財(cái)富!正如我在書中第三部分提到的,我們通過(guò)對(duì)這些數(shù)據(jù)的分析,能夠更地預(yù)測(cè)員工的離職率和升職率,更地預(yù)測(cè)員工和部門的績(jī)效水平,幫助企業(yè)員工通過(guò)基于關(guān)聯(lián)用戶和文本智能匹配快速找到對(duì)自己現(xiàn)有業(yè)務(wù)和客戶有參考價(jià)值的案例和文件,等等。但是這些提升,都是建立在企業(yè)擁有相應(yīng)數(shù)據(jù)的基礎(chǔ)上。
總的來(lái)說(shuō),數(shù)據(jù)化要求企業(yè)采集并存儲(chǔ)企業(yè)生產(chǎn)經(jīng)營(yíng)中的一切數(shù)據(jù),形成企業(yè)數(shù)據(jù)資產(chǎn)的概念。
Step 2. 整理數(shù)據(jù)資源,建立數(shù)據(jù)標(biāo)準(zhǔn),形成管理規(guī)范
很多企業(yè)已經(jīng)有了一些數(shù)據(jù)儲(chǔ)備,或者通過(guò)及時(shí)步,開始快速積累了一些數(shù)據(jù)。但是企業(yè)管理層,尤其是跨業(yè)態(tài)擁有多家子公司的集團(tuán)運(yùn)營(yíng)的企業(yè),一般而言,對(duì)于自己到底有哪些數(shù)據(jù)資源是沒(méi)有清晰認(rèn)識(shí)的,更拿不出一張較完備的數(shù)據(jù)目錄。
企業(yè)要做的及時(shí)步,就是通過(guò)自頂向下的方式,成立數(shù)據(jù)委員會(huì),在有必要的時(shí)候借助外部合作方的幫助,進(jìn)行的數(shù)據(jù)調(diào)研,了解數(shù)據(jù)資源的整體情況并建立數(shù)據(jù)資源情況更新的流程和規(guī)范。
數(shù)據(jù)資源最基本的呈現(xiàn)方式是一個(gè)數(shù)據(jù)目錄,我認(rèn)為,企業(yè)管理團(tuán)隊(duì)至少要掌握整個(gè)企業(yè)數(shù)據(jù)的3級(jí)目錄,而企業(yè)的主要技術(shù)團(tuán)隊(duì)?wèi)?yīng)該掌握到4級(jí)目錄。但數(shù)據(jù)資源又不僅僅是數(shù)據(jù)目錄,因?yàn)檫€涉及到每一個(gè)數(shù)據(jù)項(xiàng)的完備性、更新程度、有效性和噪音源等描述。掌握了數(shù)據(jù)資源后,企業(yè)要根據(jù)自己業(yè)務(wù)發(fā)展的需求,建立數(shù)據(jù)標(biāo)準(zhǔn),使現(xiàn)有數(shù)據(jù)和未來(lái)所有的新增數(shù)據(jù)都能夠在同一個(gè)標(biāo)準(zhǔn)下統(tǒng)一管理,避免“信息系統(tǒng)建設(shè)越多,未來(lái)數(shù)據(jù)整合越難”的困境。業(yè)務(wù)中涉及大量數(shù)據(jù)的企業(yè),尤其是涉及到用戶隱私數(shù)據(jù)、國(guó)家安全數(shù)據(jù)和具有重要商業(yè)價(jià)值數(shù)據(jù)的企業(yè),要形成數(shù)據(jù)全流程管理的規(guī)范,因?yàn)榻^大部分?jǐn)?shù)據(jù)隱私和數(shù)據(jù)安全的事件,都不是從外部由黑客或者敵方特定人員通過(guò)技術(shù)手段獲得的,而是本單位人員蓄意或無(wú)意泄露的。數(shù)據(jù)全流程管理的規(guī)范就是要做到企業(yè)能夠?qū)?shù)據(jù)進(jìn)行分級(jí)分權(quán)限的管理,隨時(shí)了解敏感數(shù)據(jù)存儲(chǔ)在哪些服務(wù)器和終端設(shè)備上,對(duì)于敏感數(shù)據(jù)的任何處理,都能夠留下數(shù)據(jù)日志并打上的數(shù)據(jù)水印,使任何可能的數(shù)據(jù)泄露之后,都能夠追根溯源知道是哪一位員工在什么時(shí)間點(diǎn)在哪一臺(tái)設(shè)備上運(yùn)用何種權(quán)限下載的。對(duì)于一些操作過(guò)程中出現(xiàn)的風(fēng)險(xiǎn)點(diǎn),良好的管理規(guī)范也能夠?qū)崟r(shí)發(fā)現(xiàn),防患于未然。
Step 3. 建設(shè)數(shù)據(jù)管理平臺(tái)
有的讀者一聽到數(shù)據(jù)管理平臺(tái),就認(rèn)為是要花一大筆錢建設(shè)數(shù)據(jù)中心,把數(shù)據(jù)存起來(lái)。數(shù)據(jù)管理平臺(tái)肯定要有數(shù)據(jù)中心的存儲(chǔ)災(zāi)備功能,但是它的作用遠(yuǎn)不止此。
首先,數(shù)據(jù)管理平臺(tái)要為企業(yè)量身定做一套數(shù)據(jù)組織和管理的解決方案,特別是企業(yè)各部門之間數(shù)據(jù)的共融共通,以及企業(yè)數(shù)據(jù)怎么樣進(jìn)行索引和關(guān)聯(lián)。很多大企業(yè),各部門之間數(shù)據(jù)的格式、形態(tài)和ID系統(tǒng)都不一致,部門之間無(wú)法交換數(shù)據(jù),甚至大部分的數(shù)據(jù)表連主鍵和外鍵都沒(méi)有,數(shù)據(jù)之間不可能形成有效的組織。這些都是數(shù)據(jù)管理平臺(tái)要做的事情。
其次,數(shù)據(jù)管理平臺(tái)是由業(yè)務(wù)所引導(dǎo)的,先進(jìn)的流數(shù)據(jù)智能處理系統(tǒng),要為業(yè)務(wù)提供直接的支撐。很多時(shí)候,數(shù)據(jù)管理平臺(tái)怎么搭建,需要深度了解企業(yè)最重要的核心業(yè)務(wù),通過(guò)有重大價(jià)值的示范性應(yīng)用來(lái)牽引數(shù)據(jù)管理平臺(tái)的建設(shè)。例如針對(duì)零售類的企業(yè),就應(yīng)該形成以消費(fèi)者為中心的索引和畫像系統(tǒng),主要支持精準(zhǔn)廣告、智能客服等核心業(yè)務(wù),其次才是以商品為中心的索引系統(tǒng),主要支持物流和倉(cāng)儲(chǔ)優(yōu)化等業(yè)務(wù)。
,數(shù)據(jù)管理平臺(tái)的建設(shè)要量體裁衣,強(qiáng)調(diào)魯棒性和可擴(kuò)展性,沒(méi)有必要一開始就投入大量經(jīng)費(fèi)。因?yàn)橛布杀镜南陆狄埠芸欤挥孟胩喟肽晟踔烈荒暌院蟮氖虑椋灰軜?gòu)設(shè)計(jì)合理,到需要的時(shí)候擴(kuò)充硬件是容易的。
Step 4. 建立海量數(shù)據(jù)的深入分析能力
要想建立針對(duì)多元異構(gòu)、跨域關(guān)聯(lián)的海量數(shù)據(jù),通過(guò)深度分析挖掘獲取價(jià)值的能力,主要要培養(yǎng)兩個(gè)方面的能力。
及時(shí),非結(jié)構(gòu)化數(shù)據(jù)的分析處理能力。包括文本、音頻、圖像、視頻、網(wǎng)絡(luò)和軌跡等數(shù)據(jù)。受過(guò)傳統(tǒng)商務(wù)智能和統(tǒng)計(jì)學(xué)訓(xùn)練的人,對(duì)于處理結(jié)構(gòu)化數(shù)據(jù)非常在行,但是處理非結(jié)構(gòu)化數(shù)據(jù)往往比較頭痛——比如分布好做抽樣,網(wǎng)絡(luò)怎么進(jìn)行抽樣?所以,對(duì)于常見的,特別是和企業(yè)自身業(yè)務(wù)有密切關(guān)系的非結(jié)構(gòu)化數(shù)據(jù),一定要有一支隊(duì)伍能夠挖掘其間價(jià)值,甚至將其轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù)。
第二,大數(shù)據(jù)下的機(jī)器學(xué)習(xí)的能力。絕大部分我們可以想象到的應(yīng)用問(wèn)題,其本質(zhì)都是分類或者預(yù)測(cè)問(wèn)題,包括個(gè)性化推薦、精分營(yíng)銷、員工績(jī)效管理、銀行信用卡征信、小微企業(yè)貸款、生產(chǎn)線控制、精準(zhǔn)廣告和網(wǎng)點(diǎn)選擇,等等。解決這些問(wèn)題最有力的武器就是機(jī)器學(xué)習(xí)!特別是在大數(shù)據(jù)環(huán)境下,很多高階的核函數(shù)慢得不行,大量的學(xué)習(xí)都必須采用線性學(xué)習(xí)器;而且數(shù)據(jù)非常多,很多時(shí)候都是在強(qiáng)噪音環(huán)境下尋找弱信號(hào),單一分類器往往效果一般,必須要做集成學(xué)習(xí)。舉個(gè)例子,在Netflix舉辦的百萬(wàn)美元電影個(gè)性化推薦大賽中,我們做過(guò)一些很優(yōu)美的單模型,但是比起在比賽中獲勝的集成學(xué)習(xí)模型,至少?gòu)木壬蟻?lái)說(shuō)是弱爆了!有的讀者要問(wèn)了,高性能存儲(chǔ)計(jì)算難道不重要嗎?不得有一些懂Hadoop,懂Spark的技術(shù)高手嗎?要不要在CPU陣列里面加幾塊GPU甚至可編程邏輯陣列呢?這個(gè)也重要,但是企業(yè)如果實(shí)力足夠,可以采用成熟的解決方案,國(guó)際上頂尖的大數(shù)據(jù)服務(wù)商,例如IBM、HP和Intel都有不錯(cuò)的方案。但是我說(shuō)的上述兩點(diǎn),是給企業(yè)培養(yǎng)人才和能力,而且至今也沒(méi)有特別好的成熟的解決方案,所以更重要。
,企業(yè)怎么建立這樣的能力呢?首要辦法是能夠招聘到的大數(shù)據(jù)人才——多花點(diǎn)錢和股票。第二選擇是以顯示度項(xiàng)目為牽引,通過(guò)外部合作,培養(yǎng)自己的數(shù)據(jù)分析團(tuán)隊(duì),既解決問(wèn)題,又學(xué)習(xí)能力。企業(yè)做這類的合作,不要老想著一次性把所有東西都外包出去,要探索新方式,看看能不能成立聯(lián)合小組共同進(jìn)行研發(fā),多投入一些人去學(xué)習(xí)。有一些供應(yīng)商,特別是在某些方面有專長(zhǎng),但是還不屬于國(guó)際的供應(yīng)商,在發(fā)展過(guò)程中是能夠接受企業(yè)這種要求的。
Step 5. 建設(shè)外部數(shù)據(jù)的戰(zhàn)略儲(chǔ)備
企業(yè)走到這一步,就有點(diǎn)現(xiàn)代大數(shù)據(jù)企業(yè)的理念了,因?yàn)樗辉賰H僅局限于自己業(yè)務(wù)的數(shù)據(jù)了,開始看外面的世界了——很多大數(shù)據(jù)的重大創(chuàng)新,都是來(lái)源于把數(shù)據(jù)放在產(chǎn)生數(shù)據(jù)的業(yè)務(wù)體系之外去應(yīng)用。舉個(gè)例子,一個(gè)服裝企業(yè)要解決設(shè)計(jì)生產(chǎn)的規(guī)劃問(wèn)題,僅僅看自己的銷售記錄還不夠,要不要看看淘包、天貓和京東上服裝的整體銷售,了解什么款式、什么顏色、什么價(jià)位的服裝在哪個(gè)地區(qū)受歡迎呢?這就需要外部數(shù)據(jù)了!
事實(shí)上,外部數(shù)據(jù)對(duì)于市場(chǎng)拓展、趨勢(shì)分析、競(jìng)品分析、人才招聘、用戶畫像和產(chǎn)品推薦等意義重大,而網(wǎng)站、論壇、社交媒體和電商平臺(tái)上聚集了很多有重要價(jià)值的公開數(shù)據(jù),這些數(shù)據(jù)中的大部分可以通過(guò)分布式深網(wǎng)爬蟲技術(shù)直接高效采集。所以,企業(yè)要有意識(shí)地開始建立自己的外部數(shù)據(jù)戰(zhàn)略儲(chǔ)備,不要“數(shù)”到用時(shí)方恨少。一方面,企業(yè)可以自建具備采集、清洗、存儲(chǔ)和索引等功能的自動(dòng)化系統(tǒng),自動(dòng)積累外部數(shù)據(jù);另一方面,企業(yè)可以通過(guò)和數(shù)據(jù)供應(yīng)商合作,得到一些亟需的數(shù)據(jù)。
Step 6. 建立數(shù)據(jù)的外部創(chuàng)新能力
企業(yè)很容易局限在自己的業(yè)務(wù)中不能自拔。所以,讓企業(yè)理解外面的數(shù)據(jù)能夠幫助解決自己業(yè)務(wù)遇到的問(wèn)題比較容易,因?yàn)槠髽I(yè)主和員工們每天都在想怎么解決這些問(wèn)題,反過(guò)來(lái),讓他們?nèi)ニ伎甲约簶I(yè)務(wù)的數(shù)據(jù)能不能在其他地方產(chǎn)生重大價(jià)值,幫到其他企業(yè),他們就沒(méi)有那么敏感了。其實(shí),這些創(chuàng)新性的想法往往能夠帶來(lái)新的巨大價(jià)值。比如,Google利用自身搜索業(yè)務(wù)產(chǎn)生的數(shù)據(jù),進(jìn)行電價(jià)和傳染病流行情況的預(yù)測(cè),取得了巨大成功。
事實(shí)上,企業(yè)通過(guò)智能終端、傳感網(wǎng)絡(luò)、物流記錄、網(wǎng)點(diǎn)記錄和電子商務(wù)平臺(tái),等等,獲得的及時(shí)手?jǐn)?shù)據(jù),很多都可以用于支持在跨領(lǐng)域交叉銷售、環(huán)境保護(hù)、健康管理、智慧城市、精準(zhǔn)廣告和房地價(jià)預(yù)測(cè)等方面的創(chuàng)新型應(yīng)用。把握住這些機(jī)會(huì),就能夠放大企業(yè)當(dāng)前業(yè)務(wù)的價(jià)值,帶來(lái)持久可觀的收益。
Step 7. 推動(dòng)自身數(shù)據(jù)的開放與共享
偉大的企業(yè)懂得如何把最聰明的人集合起來(lái),為自己服務(wù)。
企業(yè)有了大量數(shù)據(jù)和一定的分析能力后,不能故步自封,而要充分借助社會(huì)的力量,盡較大可能發(fā)揮數(shù)據(jù)潛藏的價(jià)值。Netflix曾經(jīng)公開了包含50多萬(wàn)用戶和17 770部電影的在線評(píng)分?jǐn)?shù)據(jù),并懸賞100萬(wàn)美元獎(jiǎng)勵(lì)能夠?qū)etflix現(xiàn)有評(píng)分預(yù)測(cè)度提高10%的團(tuán)隊(duì)。現(xiàn)在的Netflix已經(jīng)不再是一家電影在線租賃公司,而是國(guó)際的大數(shù)據(jù)企業(yè)了。除了法律上因?yàn)榘踩碗[私不能開放共享的數(shù)據(jù),相當(dāng)一部分都能夠以各種方式開放出來(lái)——這種開放會(huì)帶來(lái)更大價(jià)值!國(guó)際化的如 Kaggle(英文平臺(tái),www.kaggle.com),國(guó)內(nèi)如 DataCastle(中文平臺(tái),www.pkbigdata.com),都是很有影響力的大數(shù)據(jù)創(chuàng)新競(jìng)賽平臺(tái)。舉個(gè)例子,電子科技大學(xué)大數(shù)據(jù)研究中心曾經(jīng)在DataCastle上舉辦過(guò)學(xué)生成績(jī)預(yù)測(cè)的比賽,總獎(jiǎng)金才50 000元,卻吸引了915支隊(duì)伍2 000余名參賽者參加比賽,其中200多只隊(duì)伍來(lái)自于“985”和“211”知名高校。這里面解決方案的思路和方法已經(jīng)被應(yīng)用于教育大數(shù)據(jù)定量化管理的產(chǎn)品模塊中了。最近現(xiàn)金巴士推出的“微額借貸用戶人品預(yù)測(cè)大賽”更是吸引了1531支參賽隊(duì)伍。還有一種最近新出的比賽方式,就是企業(yè)給出數(shù)據(jù)集的描述和樣本數(shù)據(jù),參賽選手設(shè)計(jì)創(chuàng)新型商業(yè)應(yīng)用,提交產(chǎn)品說(shuō)明或者商業(yè)計(jì)劃書。
企業(yè)通過(guò)這些數(shù)據(jù)開放計(jì)劃,可以學(xué)習(xí)的算法和具創(chuàng)新性的數(shù)據(jù)應(yīng)用思路,實(shí)現(xiàn)自身數(shù)據(jù)的價(jià)值較大化。
Step 8. 數(shù)據(jù)產(chǎn)業(yè)的戰(zhàn)略投資布
企業(yè)有了一定的規(guī)模,光靠自己的能力還不夠或者還太慢,就可以考慮通過(guò)投資的方式迅速形成自己的大數(shù)據(jù)能力甚至大數(shù)據(jù)產(chǎn)業(yè)布局。這類戰(zhàn)略型的投資,有三個(gè)可能的出發(fā)點(diǎn):
(1)產(chǎn)業(yè)集成。從投資方原有優(yōu)勢(shì)產(chǎn)業(yè)或大數(shù)據(jù)前景廣闊的重點(diǎn)產(chǎn)業(yè)入手,進(jìn)行全產(chǎn)業(yè)鏈布局,集中力量。
(2)技術(shù)集成。以數(shù)據(jù)采集、存儲(chǔ)、計(jì)算、分析和可視化的創(chuàng)新型工具為主要投資對(duì)象,提供具有普適性的解決方案。
(3)數(shù)據(jù)集成。以數(shù)據(jù)流動(dòng)共享,發(fā)揮外部?jī)r(jià)值為理念,投資一批能夠緊密合作、數(shù)據(jù)互補(bǔ)和可控性強(qiáng)的企業(yè)。
對(duì)于原來(lái)沒(méi)有從事過(guò)數(shù)據(jù)密集型和信息技術(shù)密集型行業(yè)的企業(yè)來(lái)說(shuō),第二類投資方向的風(fēng)險(xiǎn)特別大,建議主要從(1)(3)兩類考慮。這種投資有別于財(cái)物投資,主要是考量被投資企業(yè)與投資方的整合能力,以及所能提供俄數(shù)據(jù)的稀缺性、獨(dú)立性、多源性、流動(dòng)性和互補(bǔ)性。
,補(bǔ)上這樣一個(gè)結(jié)束語(yǔ)的目的,是希望讀者能夠從中領(lǐng)悟到企業(yè)的大數(shù)據(jù)之道!如果說(shuō)有那么幾家企業(yè),受到這本書的啟發(fā),在商業(yè)模式、產(chǎn)品和業(yè)務(wù)方面產(chǎn)生了可觀的價(jià)值,這就是作者較大的成功了。
周濤是中國(guó)最年輕有為的大數(shù)據(jù)專家,他不僅做大數(shù)據(jù)研究,而且將產(chǎn)、學(xué)、研融為一體,在大數(shù)據(jù)創(chuàng)新實(shí)踐上一直卓有成效。在大數(shù)據(jù)渡過(guò)普及期的今天,更需要像周濤這樣的一線專家與實(shí)踐者為下一步大數(shù)據(jù)的創(chuàng)新指出方向:大數(shù)據(jù)3.0時(shí)代我們究竟要做些什么?數(shù)據(jù)交易如何讓數(shù)據(jù)資源成為匯聚之地?每個(gè)企業(yè)又該如何成為大數(shù)據(jù)企業(yè)?在他這本洋溢著濃濃的數(shù)據(jù)情懷與拳拳的責(zé)任之心的著作中,我們可以看到系統(tǒng)而清晰的路徑指南!
——田溯寧
寬帶資本董事長(zhǎng)
當(dāng)大數(shù)據(jù)的概念如此流行的時(shí)候,難得有本好書可以把實(shí)操、理論和理念都講明白的,值得認(rèn)真一讀!
——曾鳴
集團(tuán)執(zhí)行副總裁
文筆優(yōu)雅,深入淺出,思維縝密,思想深遠(yuǎn)!
——楊強(qiáng)
香港科技大學(xué)教授
周濤用大數(shù)據(jù)分析的新視角,重新審視我們所面對(duì)的這個(gè)世界,他帶領(lǐng)一群年輕人,在“大眾創(chuàng)業(yè),萬(wàn)眾創(chuàng)新”的道路上,邁出了自己堅(jiān)實(shí)的腳步。在大數(shù)據(jù)挖掘與分析,特別是網(wǎng)絡(luò)數(shù)據(jù)的挖掘與分析方面做出了系統(tǒng)性的貢獻(xiàn),其創(chuàng)新成果解決了重大科學(xué)問(wèn)題,突破了關(guān)鍵核心技術(shù),產(chǎn)生了重大社會(huì)經(jīng)濟(jì)效益,顯著改善了百姓生活。
——“2015年度十大科技創(chuàng)新人物”頒獎(jiǎng)詞
這本書為我打開了新世界!
非常滿意,很喜歡.希望當(dāng)當(dāng)網(wǎng)供應(yīng)更多價(jià)廉物美的圖書
非常不錯(cuò)的一本書
正版圖書,值得購(gòu)買,不錯(cuò)
一般般
經(jīng)典無(wú)需多言,這本書值得一看。
經(jīng)典無(wú)需多言,這本書值得一看。
受益匪淺,繼續(xù)學(xué)習(xí)
送貨很快,包裝精美,書的質(zhì)量也不錯(cuò)。
送貨很快,包裝精美,書的質(zhì)量也不錯(cuò)。
很不錯(cuò),包裝也好。印刷清晰。很喜歡。
謝謝大家支持
工作需要 希望有用
圖書齊全,送貨速度快
不錯(cuò),送貨速度很快
圖書內(nèi)容非常適合大數(shù)據(jù)研究起步閱讀,快遞也很給力,上午下單,下午送到
語(yǔ)言平實(shí)買來(lái)放枕邊
還不錯(cuò),值得推薦,可以買
書還不錯(cuò),物流效率真高。
還沒(méi)看,翻了下應(yīng)該可以
一線大咖,商業(yè)巨頭得書,很不錯(cuò)
實(shí)在對(duì)當(dāng)當(dāng)自營(yíng)物流感到失望,每次外面一個(gè)薄薄的塑料袋,寄過(guò)來(lái)書皮都快被磨通了,能不能走點(diǎn)心
很好的書籍,個(gè)人管理時(shí)間和精力,很欣賞書中的一句話,幾乎一切都是噪音,很精準(zhǔn)
還沒(méi)看,看著書好像不是很厚的樣子,希望有所收獲。
這本書感覺(jué)像是個(gè)講稿,挺通俗的大數(shù)據(jù)入門書,只是前面作者的介紹好雷人啊,估計(jì)是出版社的噱頭。
非常實(shí)用的大數(shù)據(jù)應(yīng)用手冊(cè),對(duì)指導(dǎo)企業(yè)大數(shù)據(jù)挖掘應(yīng)用,高價(jià)值
本書案例詳實(shí),且獨(dú)具個(gè)性,語(yǔ)言詼諧幽默,講解深入淺出,特別對(duì)于大數(shù)據(jù)3.0的認(rèn)識(shí)深刻系統(tǒng),對(duì)于大數(shù)據(jù)相關(guān)從業(yè)人員是本不可多得的好書
周濤,80后的優(yōu)秀代表啊。學(xué)習(xí)一下他的研究成果。