【大師講堂】應(yīng)對科學(xué)探索中大數(shù)據(jù)的挑戰(zhàn)
大數(shù)據(jù),一個日益崛起的領(lǐng)域,從科學(xué)、工程、醫(yī)藥、醫(yī)療到金融、商業(yè)、社會。它預(yù)測了2012年美國總統(tǒng)大選的結(jié)果,也被Google利用搜索關(guān)鍵詞預(yù)測禽流感的散布。它正一步一步悄然改變著你我的生活,同樣的,它也面臨著諸多困難。基于此,11月30號晚,香港中文大學(xué)常務(wù)副校長、偉倫計算器科學(xué)與工程學(xué)講座教授華云生教授在道遠(yuǎn)樓一樓校董會議室里給香港中文大學(xué)(深圳)的部分師生帶來了一場科學(xué)、嚴(yán)謹(jǐn)?shù)闹v座,為大家分析了存在于大數(shù)據(jù)之中的機遇與挑戰(zhàn)。
講座開始,華云生教授為大家介紹了何為大數(shù)據(jù)。Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)Veracity(真實性)被視為大數(shù)據(jù)的五V特征,這些特征也就決定了大數(shù)據(jù)因數(shù)據(jù)規(guī)模過大而無法存儲或獲取,有關(guān)算法復(fù)雜性的傳統(tǒng)理論可能不再有效,從而無法使用常規(guī)方法進行處理的特性。以此為展開點,華教授就其與科學(xué)工程領(lǐng)域中應(yīng)用的關(guān)系提出大數(shù)據(jù)研究中面臨的挑戰(zhàn)。大數(shù)據(jù)與其說是一種技術(shù),毋寧說是一種普遍存在的現(xiàn)象,我們需要的,是對“數(shù)據(jù)”這座寶藏的挖掘。要想真正處理大數(shù)據(jù),我們的思維方式必須轉(zhuǎn)變。欲實現(xiàn)大數(shù)據(jù)的成功應(yīng)用,我們需要采用適當(dāng)?shù)姆椒ǎ瑢崿F(xiàn)自動從大數(shù)據(jù)提取新知識而無需對數(shù)據(jù)進行集中存儲和維護的目標(biāo)。大數(shù)據(jù)的獲得與處理過程中困難重重,應(yīng)用的多樣性、缺乏理論基礎(chǔ)、難以應(yīng)付實時數(shù)據(jù)等挑戰(zhàn)的存在,使得數(shù)據(jù)的“挖掘”過程尤其重要,我們需要做的,是尋求使其成為真正“顛覆性技術(shù)”的方法。
華教授提到,要充分發(fā)揮大數(shù)據(jù)在科學(xué)發(fā)現(xiàn)中的作用,我們需要解決數(shù)據(jù)復(fù)雜性、計算復(fù)雜性和系統(tǒng)復(fù)雜性等諸多問題。特別要注意的是云計算將成為支撐大數(shù)據(jù)應(yīng)用的平臺。應(yīng)用大數(shù)據(jù)的核心是找到核心數(shù)據(jù),而這恰是難點所在。如把數(shù)據(jù)比喻為蘊藏能量的煤礦,不同煤炭的價值、挖掘成本又不一樣。與此類似,大數(shù)據(jù)并不在“大”,而在于“有用”。價值含量、挖掘成本比數(shù)量更為重要。對于很多行業(yè)而言,如何利用這些大規(guī)模數(shù)據(jù)是成為贏得競爭的關(guān)鍵,而現(xiàn)代社會的發(fā)展,意味著一個以數(shù)據(jù)為核心競爭力的時代已經(jīng)到來,大數(shù)據(jù)更將成為引領(lǐng)時代的新動力。
講座末,華云生教授悉心回答了同學(xué)與其他教授的提問,在交流之中加深了對這次講座的理解。當(dāng)一扇嶄新的學(xué)科領(lǐng)域之門展現(xiàn)在同學(xué)們的面前,新的時代應(yīng)召著新的人才,相信這一期的大師講堂,定將使與會師生受益匪淺。
?
圖:楊子晨
文:汪津成