大數據是一種思維方式革命
在方法論的層面,大數據是一種全新的思維方式。按照大數據的思維方式,我們做事情的方式和方法要從根本上改變。
這個時代屬于大數據
簡單地講,當時無論是做語音識別、機器翻譯、圖像識別,還是自然語言理解的學者,分成了界限很明確的兩派,一派堅持采用傳統的人工智能方法解決問題,簡單來講就是模仿人,另一派在倡導數據驅動方法。
這兩派在不同的領域力量不一樣,在語音識別和自然語言理解領域,提倡數據驅動的一派比較快地占了上風;而在圖像識別和機器翻譯方面,在較長時間里,數據驅動這一派處于下風。
這里面主要的原因是,在圖像識別和機器翻譯領域,過去的數據量非常少,而這種數據的積累非常困難。圖像識別就不用講了,在互聯網出現之前,沒有一個實驗室有上百萬張圖片。在機器翻譯領域,所需要的數據除了一般的文本數據,還需要大量的雙語(甚至是多語種)對照的數據,而在互聯網出現之前,除了《圣經》和少量聯合國文件,再也找不到類似的數據了。
在20世紀90年代互聯網興起之后,數據的獲取變得非常容易。從1994年到2004年的10年里,語音識別的錯誤率減少了一半,而機器翻譯的準確性提高了一倍,其中20%左右的貢獻來自方法的改進,80%則來自數據量的提升。雖然每一年計算機在解決各種智能問題上的進步幅度并不大,但是十幾年量的積累,最終促成了質變。
數據驅動方法從20世紀70年代開始起步,在八九十年代得到緩慢但穩步的發展。進入21世紀后,由于互聯網的出現,使得可用的數據量劇增,數據驅動方法的優勢越來越明顯,最終完成了從量變到質變的飛躍。如今很多需要類似人類智慧才能做的事情,計算機已經可以勝任了,這得益于數據量的增加。
全世界各個領域數據不斷向外擴展,漸漸形成了另外一個特點,那就是很多數據開始出現交叉,各個維度的數據從點和線漸漸連成了網,或者說,數據之間的關聯性極大地增強,在這樣的背景下,就出現了大數據。
智能手機和互聯網將繼續改變世界
大數據的時效性其實不是必需的,但是有了時效性可以做到很多過去做不到的事情,城市的智能交通管理便是一個例子。在智能手機和智能汽車(特斯拉等)出現之前,世界上的很多大城市雖然都有交通管理(或者控制)中心,但是它們能夠得到的交通路況信息最快也有20分鐘滯后。
如果沒有能夠跟蹤足夠多的人出行情況的實時信息的工具,一個城市即使部署再多的采樣觀察點,再頻繁地報告各種交通事故和擁堵的情況,整體交通路況信息的實時性也不會比2007年有多大改進。
但是,在能夠定位的智能手機出現后,這種情況得到了根本的改變。由于智能手機足夠普及并且大部分用戶開放了他們的實時位置信息(符合大數據的完備性),使得做地圖服務的公司,比如Google或者百度,有可能實時地得到任何一個人口密度較大的城市的人員流動信息,并且根據其流動的速度和所在的位置,很容易區分步行的人群和行進的汽車。
由于收集信息的公司和提供地圖服務的公司是一家,因此從數據采集、數據處理,到信息發布中間的延時微乎其微,所提供的交通路況信息要及時得多。使用過Google地圖服務或者百度地圖服務的人,對比六七年前,都很明顯地感到了其中的差別。當然,更及時的信息可以通過分析歷史數據來預測。
一些科研小組和公司的研發部門,已經開始利用一個城市交通狀況的歷史數據,結合實時數據,預測一段時間以內(比如一個小時)該城市各條道路可能出現的交通狀況,并且幫助出行者規劃最好的出行路線。
仔細推敲英語中bigdata這種說法,我們不得不承認這個提法非常準確,它最重要的是傳遞了一種信息——大數據是一種思維方式的改變?,F在的數據量相比過去大了很多,量變帶來了質變,思維方式、做事情的方法就應該和以往有所不同。這其實是幫助我們理解大數據概念的一把鑰匙。
在有大數據之前,計算機并不擅長解決需要人類智能來解決的問題,但是今天這些問題換個思路就可以解決了,其核心就是變智能問題為數據問題。由此,全世界開始了新的一輪技術革命——智能革命。
大數據更是一種思維方式革命
在方法論的層面,大數據是一種全新的思維方式。按照大數據的思維方式,我們做事情的方式與方法需要從根本上改變。
要說清楚大數據思維的重要性,需要先回顧一下自17世紀以來一直指導我們日常做事行為的先前最重要的一種思維方式一一機械思維。今天說起機械思維,很多人馬上想到的是死板、僵化,覺得非常落伍,甚至「機械」本身都算不上什么好詞。但是在兩個世紀之前,這可是一個時髦的詞,就如同今天我們說互聯網思維、大數據思維很時髦一樣。
可以毫不夸張地汫,在過去的三個多世紀里,機械思維可以算得上是人類總結出的最重要的思維方式,也是現代文明的基礎。今天,很多人的行為方式和思維方式其實依然沒有擺脫機械思維,盡管他們嘴上談論的是更時髦的概念。
那么,機械思維是如何產生的?為什么它的影響力能夠延伸至今,它和我們將要討論的大數據思維又有什么關聯和本質區別呢?
不論經濟學家還是之前的托勒密、牛頓等人,他們都遵循著機械思維。如果我們把他們的方法論做一個簡單的概括,其核心思想有如下兩點:首先,需要有一個簡單的元模型,這個模型可能是假設出來的,然后再用這個元模型構建復雜的模型;其次,整個模型要和歷史數據相吻合。這在今天動態規劃管理學上還被廣泛地使用,其核心思想和托勒密的方法論是一致的。
后來人們將牛頓的方法論概括為機械思維,其核心思想可以概括成這樣幾句話:
第一,世界變化的規律是確定的,這一點從托勒密到牛頓大家都認可;
第二,因為有確定性做保障,因此規律不僅是可以被認識的,而且可以用簡單的公式或者語言描述清楚。這一點在牛頓之前,大部分人并不認可,而是簡單地把規律歸結為神的作用;
第三,這些規律應該是放之四海而皆準的,可以應用到各種未知領域指導實踐,這種認識是在牛頓之后才有的。
這些其實是機械思維中積極的部分。機械思維更廣泛的影響力是作為一種準則指導人們的行為,其核心思想可以概括成確定性(或者可預測性)和因果關系。牛頓可以把所有天體運動的規律用幾個定律講清楚,并且應用到任何場合都是正確的,這就是確定性。
類似地,當我們給物體施加一個外力時,它就獲得一個加速度,而加速度的大小取決于外力和物體本身的質量,這是一種因果關系。沒有這些確定性和因果關系,我們就無法認識世界。
從牛頓開始,人類社會的進步在很大程度上得益于機械思維,但是到了信息時代,它的局限性也越來越明顯。
首先,并非所有的規律都可以用簡單的原理描述;其次,像過去那樣找到因果關系已經變得非常困難,因為簡單的因果關系規律性都被發現了。另外,隨著人類對世界認識得越來越清楚,人們發現世界本身存在著很大的不確定性,并非如過去想象的那樣,一切都是可以確定的。因此,在現代社會里,人們開始考慮在承認不確定性的情況下如何取得科學上的突破,或者把事情做得更好。這也就導致一種新的方法論誕生。
不確定性在我們的世界里無處不在。我們經??梢钥吹竭@樣一種怪現象,很多時候專家們對未來各種趨勢的預測是錯的,這在金融領域尤其常見。如果讀者有心統計一些經濟學家們對未來的看法,就會發現它們基本上是對錯各一半。這并不是因為他們缺乏專業知識,而是由于不確定性是這個世界的重要特征,以至于我們按照傳統的方法——機械論的方法難以做出準確的預測。
世界的不確定性來自兩方面,首先是當我們對這個世界的方方面面了解得越來越細致之后,會發現影響世界的變量其實非常多,已經無法通過簡單的辦法或者公式算出結果,因此我們寧愿采用一些針對隨機事件的方法來處理它們,人為地把它們歸為不確定的一類。
反映出在信息時代的方法論:誰掌握了信息,誰就能夠獲取財富,這就如同在工業時代,誰掌握了資本誰就能獲取財富一樣。
當然,用不確定性這種眼光看待世界,再用信息消除不確定性,不僅能夠賺錢,而且能夠把很多智能型的問題轉化成信息處理的問題,具體說,就是利用信息來消除不確定性的問題。比如下象棋,每一種情況都有幾種可能,卻難以決定最終的選擇,這就是不確定性的表現。再比如要識別一個人臉的圖像,實際上可以看成是從有限種可能性中挑出一種,因為全世界的人數是有限的,這也就把識別問題變成了消除不確定性的問題。
大數據的本質
首先我們必須承認世界的不確定性,這樣我們就不會采用確定性的思維方式去面對一個不確定性的世界。當我們了解到信息或者說數據能夠消除不確定性之后,便能理解為什么大數據的出現能夠解決那些智能的問題,因為很多智能問題從根本上來講無非是消除不確定性的問題。對于前面提到的大數據的三個特征,即數據量大、多維度和完備性。在這個基礎之上,我們就能夠講清楚大數據的本質。
先談談數據量的問題。在過去,由于數據量不夠,即使使用了數據,依然不足以消除不確定性,因此數據的作用其實很有限,很多人忽視它的重要性是必然的。在那種情況下,哪個領域先積攢下足夠多的數據,它的研究進展就顯得快一些。具體到機器智能方面,語音識別是最早獲得比較多數據的領域,因此數據驅動的方法從這個領域產生也就不足為奇了。
關于大數據多維度的重要性問題,可以從兩個角度來看待它。
第一個視角是「互信息」,為了獲得相關性通常需要多個維度的信息。比如我們要統計「央行調整利息」和「股市波動」的相關性,只有歷史上央行調整利息一個維度的信息顯然是不夠的,需要上述兩個維度的信息同時出現。
第二個視角是所謂的「交叉驗證」,我們不妨看這樣一個例子:夏天的時候,如果我們感覺很悶熱,就知道可能要下雨了。也就是說,「空氣濕度較高」和「24小時內要下雨」之間的互信息較大。但是,這件事并非很確定,因為有些時候濕度大卻沒有下雨。不過,如果結合氣壓信息、云圖信息等其他維度的信息,也能驗證「24小時內要下雨」這件事,那么預測的準確性就要大很多。
最后,我們從信息論的角度來看看數據完備性的重要性。在大數據時代,在某個領域里獲得數據的完備性還是可能的。比如在過去把全國所有人的面孔收集全是一件不可想象的事情,但是今天這件事情完全能做到。
當數據的完備性具備了之后,就相當于訓練模型的數據集合和使用這個模型的測試集合是同一個集合,或者是高度重復的。在這種情況下,就不會出現覆蓋不了很多小概率事件的災難。
這樣數據驅動才具有普遍性,而不再是時靈時不靈的方法論。
由此可見,大數據的科學基礎是信息論,它的本質就是利用信息消除不確定性。雖然人類使用信息由來已久,但是到了大數據時代,量變帶來質變,以至于人們忽然發現,采用信息論的思維方式可以讓過去很多難題迎刃而解。
現有產業+摩爾定律=新產業
與前兩次工業革命類似,雖然信息革命的代表產品是計算機處理器,但是并不需要每一家公司都生產處理器,甚至不需要每一家公司自己開發軟件。今天大部分公司使用的處理器只有兩個系列,即英特爾x86系列(加上AMD兼容產品)和英國ARM公司設計的RISC(精簡指令集)處理器,因此計算機實際上可以被看成是一種資源,而大部分公司需要做的只是使用好這些資源而已。
我們回顧過去是為了展望未來。今后,由大數據引發的智能革命也將是以一種與前面幾次技術革命類似的方式展開,如果我們用兩個簡單的公式來概括的話,那就是:
現有產業+大數據=新產業
現有產業+機器智能=新產業
摩爾定律和安迪—比爾定律到了智能手機時代照樣適用,我們就不贅述了。
通過上述對歷次技術革命中商業模式變遷的分析,我們可以得到這樣三個結論:
首先,技術革命導致商業模式的變化,尤其是新的商業模式的誕生。其次,生產越來越過剩,需求拉動經濟增長的模式變得不可逆轉。同時,單純制造業的利潤越來越低,那些行業越來越沒有出路。相反,人們對服務的需求越來越強烈。
在IT時代,唱主角的公司逐漸從制造設備的IBM、愛立信、諾基亞和惠普等公司,變成了提供軟件和服務的微軟、甲骨文和Google等公司。最后,商業模式的變化既有繼承性,又有創新性。工業革命導致了產品需要靠推銷才能賣出去,第二次工業革命導致了廣告業的興起,推銷的方式從展示變成了做廣告,而這兩者之間是有聯系的。
作為創新的一方面,第二次工業革命導致了商業鏈的出現;到了信息時代,商業鏈得到了發展,這是繼承性的一面;而服務業的重要性突顯,這是其創新性的一面。