大數(shù)據(jù)作為2017年比較熱門的技術(shù),受到越來越多的關(guān)注,那么對(duì)于一個(gè)想進(jìn)入大數(shù)據(jù)的朋友來說,想知道的是:大數(shù)據(jù)學(xué)什么?今天科多大數(shù)據(jù)就和你們一起來分享一篇關(guān)于大數(shù)據(jù)學(xué)習(xí)內(nèi)容體系介紹的文章。
大數(shù)據(jù)技術(shù)體系太龐雜了,基礎(chǔ)技術(shù)覆蓋數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、分布式存儲(chǔ)、NOSQL數(shù)據(jù)庫(kù)、多模式計(jì)算(批處理、在線處理、實(shí)時(shí)流處理、內(nèi)存處理)、多模態(tài)計(jì)算(圖像、文本、視頻、音頻)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人工智能、深度學(xué)習(xí)、并行計(jì)算、可視化等各種技術(shù)范疇和不同的層面。另外大數(shù)據(jù)應(yīng)用領(lǐng)域廣泛,各領(lǐng)域采用技術(shù)的差異性還是比較大的。短時(shí)間很難掌握多個(gè)領(lǐng)域的大數(shù)據(jù)理論和技術(shù),建議從應(yīng)用切入、以點(diǎn)帶面,先從一個(gè)實(shí)際的應(yīng)用領(lǐng)域需求,搞定一個(gè)一個(gè)技術(shù)點(diǎn),有一定功底之后,再舉一反三橫向擴(kuò)展,這樣學(xué)習(xí)效果就會(huì)好很多。大數(shù)據(jù)技術(shù)初探
從前幾年到現(xiàn)在所謂的大數(shù)據(jù)時(shí)代,移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算、人工智能、機(jī)器人、大數(shù)據(jù)等前沿信息技術(shù)領(lǐng)域,逐個(gè)火了一遍,什么是大數(shù)據(jù),大數(shù)據(jù)的技術(shù)范疇包括那些,估計(jì)很多人都是根據(jù)自己所熟悉的領(lǐng)域在盲人摸象。
下文從DT(Data technology,數(shù)據(jù)技術(shù))技術(shù)泛型角度來系統(tǒng)地介紹什么是大數(shù)據(jù),包括那些核心技術(shù),各領(lǐng)域之間的關(guān)系等等:
首先我們說機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)(machine learning),是計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)的交叉學(xué)科,核心目標(biāo)是通過函數(shù)映射、數(shù)據(jù)訓(xùn)練、優(yōu)化求解、模型評(píng)估等一系列算法實(shí)現(xiàn),讓計(jì)算機(jī)擁有對(duì)數(shù)據(jù)進(jìn)行自動(dòng)分類和預(yù)測(cè)的功能;機(jī)器學(xué)習(xí)領(lǐng)域包括很多智能處理算法,分類、聚類、回歸、相關(guān)分析等每類下面都有很多算法進(jìn)行支撐,如SVM,神經(jīng)網(wǎng)絡(luò),Logistic回歸,決策樹、EM、HMM、貝葉斯網(wǎng)絡(luò)、隨機(jī)森林、LDA等,無論是網(wǎng)絡(luò)排名的十大算法還是二十大算法,都只能說是冰山一角;總之計(jì)算機(jī)要智能化,機(jī)器學(xué)習(xí)是核心的核心,深度學(xué)習(xí)、數(shù)據(jù)挖掘、商業(yè)智能、人工智能,大數(shù)據(jù)等概念的核心技術(shù)就是機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)用于圖像處理和識(shí)別就是機(jī)器視覺,機(jī)器學(xué)習(xí)用于模擬人類語(yǔ)言就是自然語(yǔ)言處理,機(jī)器視覺和自然語(yǔ)言處理也是支撐人工智能的核心技術(shù),機(jī)器學(xué)習(xí)用于通用的數(shù)據(jù)分析就是數(shù)據(jù)挖掘,數(shù)據(jù)挖掘也是商業(yè)智能的核心技術(shù)。
深度學(xué)習(xí)(deep learning),機(jī)器學(xué)習(xí)里面現(xiàn)在比較火的一個(gè)子領(lǐng)域,深度學(xué)習(xí)是已經(jīng)被研究過幾十年的神經(jīng)網(wǎng)絡(luò)算法的變種,由于在大數(shù)據(jù)條件下圖像,語(yǔ)音識(shí)別等領(lǐng)域的分類和識(shí)別上取得了非常好的效果,有望成為人工智能取得突破的核心技術(shù),所以各大研究機(jī)構(gòu)和IT巨頭們都投入了大量的人力物力做相關(guān)的研究和開發(fā)工作。
數(shù)據(jù)挖掘(data mining),是一個(gè)很寬泛的概念,類似于采礦,要從大量石頭里面挖出很少的寶石,從海量數(shù)據(jù)里面挖掘有價(jià)值有規(guī)律的信息同理。數(shù)據(jù)挖掘核心技術(shù)來自于機(jī)器學(xué)習(xí)領(lǐng)域,如深度學(xué)習(xí)是機(jī)器學(xué)習(xí)一種比較火的算法,當(dāng)然也可以用于數(shù)據(jù)挖掘。還有傳統(tǒng)的商業(yè)智能(BI)領(lǐng)域也包括數(shù)據(jù)挖掘,OLAP多維數(shù)據(jù)分析可以做挖掘分析,甚至Excel基本的統(tǒng)計(jì)分析也可以做挖掘。關(guān)鍵是你的技術(shù)能否真正挖掘出有用的信息,然后這些信息可以提升指導(dǎo)你的決策,如果是那就算入了數(shù)據(jù)挖掘的門。
人工智能(artifical intelligence),也是一個(gè)很大的概念,終極目標(biāo)是機(jī)器智能化擬人化,機(jī)器能完成和人一樣的工作,人腦僅憑幾十瓦的功率,能夠處理種種復(fù)雜的問題,怎樣看都是很神奇的事情。雖然機(jī)器的計(jì)算能力比人類強(qiáng)很多,但人類的理解能力,感性的推斷,記憶和幻想,心理學(xué)等方面的功能,機(jī)器是難以比肩的,所以機(jī)器要擬人化很難單從技術(shù)角度把人工智能講清楚。人工智能與機(jī)器學(xué)習(xí)的關(guān)系,兩者的相當(dāng)一部分技術(shù)、算法都是重合的,深度學(xué)習(xí)在計(jì)算機(jī)視覺和棋牌走步等領(lǐng)域取得了巨大的成功,比如谷歌自動(dòng)識(shí)別一只貓,近谷歌的AlpaGo還擊敗了人類頂級(jí)的專業(yè)圍棋手等。但深度學(xué)習(xí)在現(xiàn)階段還不能實(shí)現(xiàn)類腦計(jì)算,多達(dá)到仿生層面,情感,記憶,認(rèn)知,經(jīng)驗(yàn)等人類獨(dú)有能力機(jī)器在短期難以達(dá)到。
后我們才說大數(shù)據(jù)(big data),大數(shù)據(jù)本質(zhì)是一種方法論,一句話概括,就是通過分析和挖掘全量海量的非抽樣數(shù)據(jù)進(jìn)行輔助決策。上述技術(shù)原來是在小規(guī)模數(shù)據(jù)上進(jìn)行計(jì)算處理,大數(shù)據(jù)時(shí)代呢,只是數(shù)據(jù)變大了,核心技術(shù)還是離不開機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等,另外還需考慮海量數(shù)據(jù)的分布式存儲(chǔ)管理和機(jī)器學(xué)習(xí)算法并行處理等核心技術(shù)。總之大數(shù)據(jù)這個(gè)概念就是個(gè)大框,什么都能往里裝,大數(shù)據(jù)源的采集如果用傳感器的話離不開物聯(lián)網(wǎng)、大數(shù)據(jù)源的采集用智能手機(jī)的話離不開移動(dòng)互聯(lián)網(wǎng),大數(shù)據(jù)海量數(shù)據(jù)存儲(chǔ)要高擴(kuò)展就離不開云計(jì)算,大數(shù)據(jù)計(jì)算分析采用傳統(tǒng)的機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘技術(shù)會(huì)比較慢,需要做并行計(jì)算和分布式計(jì)算擴(kuò)展,大數(shù)據(jù)要互動(dòng)展示離不開可視化,大數(shù)據(jù)的基礎(chǔ)分析要不要跟傳統(tǒng)商業(yè)智能結(jié)合,金融大數(shù)據(jù)分析、交通大數(shù)據(jù)分析、醫(yī)療大數(shù)據(jù)分析、電信大數(shù)據(jù)分析、電商大數(shù)據(jù)分析、社交大數(shù)據(jù)分析,文本大數(shù)據(jù)、圖像大數(shù)據(jù)、視頻大數(shù)據(jù)…諸如此類等等范圍太廣…,總之大數(shù)據(jù)這個(gè)框太大,其終極目標(biāo)是利用上述一系列核心技術(shù)實(shí)現(xiàn)海量數(shù)據(jù)條件下的人類深度洞察和決策智能化!這不僅是信息技術(shù)的終極目標(biāo),也是人類社會(huì)發(fā)展管理智能化的核心技術(shù)驅(qū)動(dòng)力。