幾個盲人分別摸到了大象的鼻子、耳朵、腿、尾巴和軀體,這張“瞎子摸象”的照片,在“2013中國計(jì)算機(jī)大會”上出現(xiàn)多次,好幾位報(bào)告人和講者,都不約而同地選了這張照片來表達(dá)對大數(shù)據(jù)目前研究進(jìn)展的態(tài)度。
作為國內(nèi)計(jì)算領(lǐng)域規(guī)格最高、規(guī)模最大的學(xué)術(shù)會議,“2012中國計(jì)算機(jī)大會”上,“大數(shù)據(jù)”是出現(xiàn)頻率最高的主題詞,幾乎每個主講者,每場論壇,都涉及這幾個字。同時(shí),中國計(jì)算機(jī)學(xué)會也在大會舉行期間,正式成立了專家委員會,中國工程院院士李國杰擔(dān)任主任。一年來,“大數(shù)據(jù)”3個字持續(xù)升溫,社會對于大數(shù)據(jù)的關(guān)注也從最初的必要性、重要性轉(zhuǎn)向如何獲得數(shù)據(jù),如何進(jìn)行處理,如何進(jìn)行利用。
“大數(shù)據(jù)”面臨大挑戰(zhàn)
計(jì)算機(jī)大會專門組織的“大數(shù)據(jù)主題論壇”可謂高規(guī)格陣容,主講者有中國工程院院士、中科院計(jì)算機(jī)所研究員李國杰,中國工程院院士東北大學(xué)教授柴天佑,中國科學(xué)院院士、北京大學(xué)教授鄂維南;中國科學(xué)院院士、上海交通大學(xué)副校長梅宏等。
“IT技術(shù)廣泛的應(yīng)用使我們獲得了巨大數(shù)據(jù),從這些數(shù)據(jù)當(dāng)中我們可以得到很多東西,也使計(jì)算機(jī)系統(tǒng)、軟件技術(shù)、生產(chǎn)生活,包括數(shù)學(xué)基礎(chǔ)研究面臨新的挑戰(zhàn)和機(jī)遇。”論壇主持人、國防科技大學(xué)王懷民教授說。
梅宏院士認(rèn)為信息界當(dāng)前的幾個最熱點(diǎn)的問題,大數(shù)據(jù)、云計(jì)算、移動互聯(lián)網(wǎng)本質(zhì)上都是互聯(lián)網(wǎng)計(jì)算及其延伸產(chǎn)生的效果,包括更快的網(wǎng)絡(luò)帶寬,更廣大的網(wǎng)絡(luò)接入,更強(qiáng)的計(jì)算能力,更小的計(jì)算設(shè)備和更低的存儲成本。
不過,他同時(shí)也指出,大數(shù)據(jù)不僅帶來對軟件技術(shù)、編程語言的挑戰(zhàn),同時(shí)也讓人類社會面臨著能耗挑戰(zhàn),因?yàn)槟壳叭蚍秶鷥?nèi)的數(shù)據(jù)中心服務(wù)器和散熱系統(tǒng)每年大概需要消耗30億瓦的電能,而這相當(dāng)于20座核電站的發(fā)電量。一個大型數(shù)據(jù)中心的能耗非常巨大,甚至比一座中型美國城市的耗電量還要高。
“歷史上設(shè)計(jì)計(jì)算機(jī)系統(tǒng)的主要目標(biāo)是充分發(fā)揮CPU的計(jì)算性能,較少關(guān)心如何滿足持續(xù)的數(shù)據(jù)存取要求?,F(xiàn)在存儲問題尚未解決,又遇上大數(shù)據(jù)應(yīng)用,計(jì)算機(jī)系統(tǒng)的負(fù)載發(fā)生了本質(zhì)性變化,雖然CPU進(jìn)展很快,每年50%~60%的增長,但負(fù)載增加更大,以前數(shù)據(jù)是圍著CPU轉(zhuǎn)的,現(xiàn)在變過來了,是圍繞數(shù)據(jù)轉(zhuǎn)。”李國杰院士認(rèn)為,計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)需要革命性的重構(gòu),重點(diǎn)是數(shù)據(jù)如何“搬運(yùn)”,要由過去的“大象搬木頭”轉(zhuǎn)變?yōu)?ldquo;螞蟻搬大米”.
李國杰院士透露,中科院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室的“天璣網(wǎng)絡(luò)大數(shù)據(jù)平臺”,已經(jīng)完成了面向網(wǎng)絡(luò)大數(shù)據(jù)、金融大數(shù)據(jù)處理的一體機(jī)原型系統(tǒng),并已經(jīng)在淘寶、騰訊等相關(guān)企業(yè)和大數(shù)據(jù)情報(bào)處理領(lǐng)域進(jìn)行了試用。
中國工程院院士柴天佑則描述了工業(yè)大數(shù)據(jù)的特殊:數(shù)據(jù)量大、類型多、變化速度快,復(fù)雜工業(yè)系統(tǒng)中許多機(jī)理不清,難以用數(shù)學(xué)模型來描述其特征,大數(shù)據(jù)的應(yīng)用技術(shù)為研究復(fù)雜工業(yè)系統(tǒng)開辟了新途徑。
大數(shù)據(jù)研究和應(yīng)用不能“忽悠”
“大數(shù)據(jù)是什么呢?每個人都有每個人的理解,我自己也是帶著問題來的。”2013年中國計(jì)算機(jī)學(xué)會海外杰出貢獻(xiàn)獎獲得者、美國特拉華大學(xué)電子與計(jì)算機(jī)工程終身教授高光榮在做大會報(bào)告時(shí),展示了“瞎子摸象”的照片。這位從事計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)研究的國際知名學(xué)者介紹了自己近些年從事數(shù)據(jù)研究的成果。不過,他認(rèn)為“大數(shù)據(jù)”的提法過熱,明顯有炒作的味道,急于求成,“做研究不要貪快,有些研究不會立竿見影,一項(xiàng)研究工作需要很多年。無論是美國還是中國,我們在大數(shù)據(jù)研究上,都才剛剛開始。”他用了一個新學(xué)會的詞:不能“忽悠”.
不過,在大數(shù)據(jù)主題論壇上,高光榮教授仍未得到答案。
當(dāng)李國杰院士從系統(tǒng)結(jié)構(gòu)的角度,柴天佑院士從工業(yè)應(yīng)用,鄂維南院士是從數(shù)學(xué)的角度,梅宏院士從軟件的角度進(jìn)行一一闡述之后,一名學(xué)生提出了一個問題:“能不能請各位老師用一句話說說大數(shù)據(jù)的本質(zhì)是什么?大數(shù)據(jù)帶來什么樣的變化?”
一句話說清一個問題似乎讓主講者都有些為難。
柴天佑院士認(rèn)為,從用大數(shù)據(jù)進(jìn)行研究的角度來談,超出現(xiàn)有的理論方法技術(shù)、工具,能處理一個數(shù)據(jù)群就叫大數(shù)據(jù)。
而李國杰院士認(rèn)為,大數(shù)據(jù)被“大”字給忽悠了,它更多的是多樣化、變化快,不僅有快數(shù)據(jù),還有真?zhèn)蝺煞矫娴臄?shù)據(jù)。大數(shù)據(jù)是一個處理數(shù)據(jù)的方法,不是數(shù)據(jù)本身的規(guī)模。
梅宏直接表示很難回答:“大數(shù)據(jù)這個詞不是技術(shù)生產(chǎn)科學(xué)意義比較明確的定義,它給人的聯(lián)想太多的空間了。用一句話我說不出來。”
之前,他提到大數(shù)據(jù)將不會是一個可完全“解決”的問題,只能是逐步“逼近”、緩解的技術(shù),目前尚不存在有效的大數(shù)據(jù)技術(shù)。
針對研究人員如何獲數(shù)據(jù)的問題,李國杰院士回答,政府應(yīng)該是首要的公眾數(shù)據(jù)來源者,政府掌握大量的各類數(shù)據(jù),但是現(xiàn)在數(shù)據(jù)公開還沒有做好。此外,研究人員還可以向企業(yè)要數(shù)據(jù),通過協(xié)議相互交換,搞技術(shù)的、做科學(xué)研究的共同交流才能出成果。
大數(shù)據(jù)研究人員短缺
計(jì)算機(jī)大會的特邀講者,來自美國北卡來羅納州立大學(xué)分校史德利·阿霍爾特(Stahley.Ahalt)教授是創(chuàng)新計(jì)算研究所的負(fù)責(zé)人,他認(rèn)為,大數(shù)據(jù)已經(jīng)存在,需要新的工具來使數(shù)據(jù)消費(fèi)者進(jìn)行大規(guī)模應(yīng)用。
在他看來,數(shù)據(jù)的產(chǎn)生者包括大學(xué)、政府、醫(yī)療保健機(jī)構(gòu)、工業(yè)界等,而數(shù)據(jù)使用者是科學(xué)家、公民、政府、醫(yī)務(wù)人員、商業(yè)界。“從2010年開始,每兩天產(chǎn)生的數(shù)據(jù)就相當(dāng)于歷史上到2003年產(chǎn)生的數(shù)據(jù)總和。所以需要數(shù)據(jù)科學(xué),對這些數(shù)據(jù)進(jìn)行分析、挖掘,利用。互聯(lián)網(wǎng)使得數(shù)據(jù)的移動、共享和發(fā)現(xiàn)更容易;更快的處理器,更多和更廉價(jià)的存儲容量”
他介紹了大數(shù)據(jù)在美國社會管理、風(fēng)暴潮預(yù)測以及生物基因診斷方面的成功應(yīng)用。一家名為美國快捷藥方的公司宣稱已有10億個藥方數(shù)據(jù)用于分析,使病人的郵購處方更為合理經(jīng)濟(jì)。他們通過預(yù)測模型,找到了400個影響因素,來發(fā)現(xiàn)因病人不遵循用藥規(guī)定帶來的風(fēng)險(xiǎn),而這一項(xiàng)每年帶來的損失高達(dá)3170億美元。UPS公司通過分析從成千上萬臺送貨車上傳感器傳回的數(shù)據(jù),減少530萬英里行程,減少發(fā)動機(jī)的閑置達(dá)1000萬分鐘,節(jié)省65萬加倫的燃料,減少二氧化碳排放量達(dá)6500公噸。
阿霍爾特教授提供了一系列數(shù)字,大數(shù)據(jù)的應(yīng)用可以使美國每年節(jié)省醫(yī)療節(jié)省費(fèi)用達(dá)到3000億美元,這相當(dāng)于西班牙全年的醫(yī)療保健花費(fèi);歐洲公共管理部門每年可節(jié)省2500億歐元;節(jié)省1%的汽油油耗,15年可以節(jié)省680億美元;采用數(shù)據(jù)信息決策的公司,可使生產(chǎn)率提升5%~6%.
而因?yàn)榇髷?shù)據(jù)開發(fā)及使用,也可以創(chuàng)造無數(shù)新的工作機(jī)會。全球范圍內(nèi),到2015年,大數(shù)據(jù)和分析工作機(jī)會有望超過400萬個。
每個大數(shù)據(jù)的工作能夠產(chǎn)生3個相關(guān)的工作。對于美國而言,到2015年,將有190萬新的大數(shù)據(jù)工作機(jī)會,但將由于人才短缺,僅有1/3的崗位能招到人。2020年,美國針對數(shù)據(jù)相關(guān)的管理員和軟件開發(fā)者的需求預(yù)計(jì)增長約32%.
在2012年的一項(xiàng)調(diào)查中,78%的被調(diào)查者認(rèn)為確實(shí)存在大數(shù)據(jù)方面的人才短缺。那么大數(shù)據(jù)科學(xué)家要具備什么樣的IT技能呢?阿霍爾特表示,數(shù)據(jù)科學(xué)家要對計(jì)算機(jī)科學(xué)背景有全面了解,包括對應(yīng)用軟件、建模、數(shù)據(jù)、分析等,要有商業(yè)頭腦,以及對數(shù)據(jù)提煉融合的能力。數(shù)據(jù)科學(xué)家還“必須能夠獲取數(shù)據(jù)集,對它們進(jìn)行數(shù)學(xué)建模,以及懂得建立模型的所需要的數(shù)學(xué)理論。他們必須能發(fā)現(xiàn)并闡明數(shù)據(jù)揭示的問題,即從數(shù)據(jù)中發(fā)現(xiàn)合適的問題。”
- 百億美元預(yù)算僅分到3.25億,馬斯克的SpaceX遭遇最狠一擊
- 啟信寶發(fā)布《全國產(chǎn)業(yè)集群大全》,全景透視超20000個特色產(chǎn)業(yè)集群
- 人民日報(bào)對話任正非:國家越開放,會促使我們更加進(jìn)步
- 五大領(lǐng)域,六大亮點(diǎn)!全國首個新域新質(zhì)創(chuàng)新大賽落地青島
- 2025新域新質(zhì)創(chuàng)新大賽新聞通氣會?在青島召開
- 華為ICT大賽2024-2025全球總決賽收官:AI賦能教育轉(zhuǎn)型,助力ICT人才培養(yǎng)
- 從無線再進(jìn)化到數(shù)據(jù)完整性:解碼Qorvo如何定義下一代智能設(shè)備
- 發(fā)力5G-A揚(yáng)帆,山東領(lǐng)航萬兆時(shí)代:助推新型工業(yè)化崛起
- 萬智互聯(lián) 加速邁向智能世界——華為亮相第八屆數(shù)字中國建設(shè)峰會
- 聯(lián)想車計(jì)算上海車展亮劍:以智算AI,驅(qū)動汽車“智慧”加速
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。