■本報記者 商灝 北京報道
人工智能越來越熱,正在大連舉行的第十一屆夏季達沃斯論壇,也將其列入核心話題——以人工智能為主要特征的第四次工業革命怎樣確保整個經濟包容性增長?這一會議主題引起很多關注、討論。而當下與之相關的更深入的熱門話題是,人工智能未來將如何影響社會進步和產業發展?快速擴張的中國人工智能產業如何成為推動經濟健康發展的強大穩定的潮流?剛剛回國的代表中國出席上周在日本東京舉行的國際信標委全會的國際信標委協調員、柏睿數據董事長劉睿民,在接受《華夏時報》記者專訪時表示,人工智能其實與物聯網的發展,與數據處理技術的發展密切相關,其最基礎的東西是龐大的數據量,是數據庫技術,是機器學習的算法。劉睿民說,人工智能產業發展的背后,其實是一種博弈,各有關國家技術水平都差不多,某些技術項下中國還有超前,尤其在內存全并行數據庫運用上。但技術的發展是一個持續的過程,你若不往前走,別人繼續前行就要超過你。
2016年國際信標委美國孟菲斯 “ISO/IEC JTC1/SC32數據管理與交換”分技術委員會全會上,劉睿民代表中國提交的有關“SQL 對 MapReduce 及與之相關的流數據處理的支持”的流數據庫技術標準提案,獲正式立項。劉睿民說,立項以后,這個標準里到底應含哪些東西,大家會先把想法說出來形成草案,再進行討論和修改,而討論和修改則是個博弈過程,劉睿民說,如果按既定方向走,中國這一提案在2018年獲得國際信標委全會通過后將正式成為國際標準。
關于人工智能未來發展趨勢,劉睿民說,這次在日本舉行的國際信標委全會上,他提出了“人工智能最終會被函數化”的推論。
人工智能最終會被函數化
《華夏時報》:人工智能大熱之時,與其相關之技術,包括大數據、機器學習方面,諸多問題如何看清?
劉睿民:人工智能最關鍵處在于其算法。人工智能算法上世紀70年代即已有之,只因當時數據量不夠,難有用武之地。而今有了機器學習,方可大顯身手。機器學習通常分四大類、三十多種算法,比較好用者,大約三到五種,在不同領域均有用之。其深入應用,只要數據量足夠,特性表現令人滿意。人工智能應用,歸根到底,就是機器學習算法。
人工智能應用興起,還因現今物聯網相對成熟,大量數據沉淀下來,瞬間數據被采集下來。而以之進行決策,須基于統計算法,基于統計學之精算,例如蒙特卡羅樹搜索(Monte Carlo Tree Search,一種人工智能問題中做出最優決策的方法,一般是在組合博弈中的行動規劃形式。它結合了隨機模擬的一般性和樹搜索的準確性)的應用。所謂人工智能,究其實質,無非一些算法應用而已。迄今為止,所有這些算法理論基礎并沒有發生改變。只是現在人工智能應用所基于數據量比以前要大得多,以前可能是有70萬條數據,現在卻可能是有70萬億條數據,算出來的東西當然更加精準、更加接近現實,某種程度上就更接近人工智能的定義。
《華夏時報》:有無可能出現新一輪人工智能算法的突破?
劉睿民:到現在為止,算法理論上并沒有突破,只是說原來的理論相對比較超前被用了。
《華夏時報》:流數據庫技術標準和現在熱炒的人工智能概念有何關聯?
劉睿民:流數據庫主要跟物聯網有關,物聯網里大量數據出來以后,基本上就跟人工智能應用有關。什么叫物聯網?比如自動駕駛就是物聯網。各種傳感器經過掃描,把數據送到后端進行處理,這就叫物聯網。人工智能應用范圍很廣,同時它在各個行業里又有各自的特異性。比如語言翻譯是人工智能,智能駕駛又是另外一種應用領域,這兩者一樣嗎?完全不一樣。下棋也是另外一種應用領域。所以,怎樣將各領域的東西抽象出來,變成函數、變成通用的基礎設施,這類似于以數據庫為基礎設施,提供一個標準接口,以此標準接口提供標準服務,這是關鍵。
這次在東京舉行的國際信標委全會上,我提出了“人工智能最終會被函數化”的推論。以前的函數都是取平均值、取最大值、取最小值、取delta(復數),差異項,——類似這種簡單計算。以后的函數就不是了,以后可能從前面采集一坨數,經過人工智能算出來則可能是某一決策的幾個要點,決策者看到這幾個要點,可能會選一條路徑往下走,最后就變成一個復雜函數了。
《華夏時報》:從人工智能未來來看,推動人工智能迅速發展的三個主導因素:大數據的爆發、算力的普及和提升、行業的應用需求,它們還會有更深入的發展,就是你所說的算法更加復雜、數據更加豐富?
劉睿民:對,就是這樣。過去數據量不夠,且數據分布非常離散,沒有代表性,從中看不到任何規律,因此算法根本用不起來。一旦數據量大了以后,數據的分布就會有一定的關聯性。在物聯網情境下,大量數據都會被采集下來,就好像我們戴的電子腕表這類智能硬件,一秒鐘對人心跳的檢測有2-3次,一分鐘有120多次。除了心跳應用,還有走路應用、海拔應用、熱量計算應用等,這些數據不斷往下刷,產生極大量的新數據。類似的應用,比如智能房間、智能駕駛等,實際都是要依靠一堆采集數據的傳感器。
這些應用會使算法越來越成熟。到一定階段,就可能會變成一些固化的函數。現在大家還在探索,在哪個領域用得最好,這個算法用在ABC更好,還是用在EFG更好。但它的特性到底用在哪個行業里面?比如蒙特卡羅樹搜索用在類似腕表的計算上面不見得是最好的方法,但是通過其他的算法,也許可以得到更好的結果。
一定要把汽車砸掉的是馬車
《華夏時報》:人工智能未來幾個因素,大數據爆發、算法的普及提升、算力的提升、行業應用方面,未來會發展到什么程度?現在大家最熱烈討論的一個問題是,迅速發展的人工智能未來會不會真的取代人腦智能?怎么樣看人機較量勝負的象征意義?人類自我認知、自我發現還會面臨什么大的突破?
劉睿民:在這次國際信標委全會上,我在闡述相關問題時舉了一個例子:就像開車一樣,人跑得再快也不可能跑過汽車,但是奧運會徑賽項目因此就沒人參加了嗎?
《華夏時報》:機器人有深度學習的能力,如果這一能力最終導致機器人智能超出了設計者能接受和掌控的程度,這會不會很恐怖?
劉睿民:我反倒不覺得。人工智能算法的目標更多是探索某種最佳決策路徑而已。最終究竟選擇哪一種最佳決策路徑,確實人腦計算不過來,需要依賴更強計算力,采集和分析某一特定情境中足夠大量的數據,作出可能出乎人類意料的決策或判斷。
《華夏時報》:比如戰爭機器人,設計出來參加戰斗的機器人士兵,單個可能會聽從命令,一旦它可以形成自己的語言并在相互間進行交流、有思想、有謀略了,會不會形成團體戰斗力,從而不再為設計它的人類服務,甚至反過來把雇傭它的人給消滅了?
劉睿民:就像過去機械誕生的時候,人類也曾很恐懼一樣,一定要把汽車砸掉的是馬車。
《華夏時報》:你認為機器人無論怎么樣都逃不脫人類的控制?
劉睿民:逃不脫。怎么可能逃脫?除非它能造出一個數學公式,超越人類所造出的數學公式。
《華夏時報》:可是機器的深度學習能力太強大了。
劉睿民:深度學習不代表對理論的顛覆,這是兩碼事,它只是一個統計算法而已,只是說在某種情境下,哪些東西出現幾率比較高,哪些東西出現幾率比較低。A情境下出現幾率比較高的那些東西分布的區域,與B和C情境下出現幾率比較高的那些東西分布的區域,有什么相關性,這純粹都是統計的結果。
《華夏時報》:機器只能識別和判斷這些概率出現的大小,卻并不能設計出相關的情境?
劉睿民:對,這是統計概率問題,難道統計概率能把其他的數學理論顛覆掉嗎?答案一定是,不。否則這世界上就只有統計,沒有別的數據分支了。
《華夏時報》:無論深度學習能力多么強大,終究它不懂得人類創造的基礎理論?
劉睿民:對。
歸根到底,再怎么樣都是統計算法。所以我們要記住:它是從一九七幾年開始的那些統計算法里所衍生出來的東西。
《華夏時報》:它自己不會像人類那樣有自我發現、自我認識的能力?
劉睿民:它所謂的自我發現,只不過是在統計算法的基礎上,對原有的這些統計數據集之間發生的關系進行一定的歸納。
《華夏時報》:現在投資者有意炒作人工智能這個概念,背后可能是對未來市場的爭奪,但反映到深度學習和認知計算的技術競賽方面,會不會帶來什么大的變革?
劉睿民:也不能這么說,投資人有投資人的想法,因為投資是逐利的,但是投資人也不至于什么都懂,因此就有可能被忽悠,或對某些東西產生臆想,或刻意放大某些東西。
《華夏時報》:或是有意進行一些市場布局,以獲得更大利益?
劉睿民:現在的投資市場更多是擊鼓傳花的過程,就要看最后接的人是誰了。一項新技術從誕生和發展到相對成熟階段,都有一定規律,不是隨隨便便就發生了變化,發生變化需要一定的理由。機械時代發展至今,機械基本上成熟了,雖然偶爾還會出現一些突發異想的機械結構,但已經基本到頂了,制造已經變成智造,相當于要有新的東西,要有機械替代人肌肉的東西,才能夠發揮更大的作用。
《華夏時報》:從人工智能到人腦研究,未來可能會面臨什么樣驚人的局面?
劉睿民:無非就是造出一個一個部件來替代人說話和工作。
《華夏時報》:人工智能疊加智能制造,可能會帶來什么樣的工業世界、社會面貌大的變化?
劉睿民:工業界的變化我相信其實會比較大,比如像智能駕駛、智能車間、黑燈工廠、智能碼頭,歸根到底還是人利用了智能機械,讓生活變得更美好。
基礎理論研究
須盡快趕上美國
《華夏時報》:人工智能方面的研究,中美差距到底有多大?
劉睿民:人工智能商業化我們走得快,國內一向都是應用做得好,體驗做得好,但是扎實的基礎設施、基礎理論做得很糟糕。拿數據庫來說,30年過去了,到底作出什么樣的東西,市場上已經說明了一切。國家為此投了多少錢,肯定我是計算不出來,但這個量肯定非常大。人工智能極有可能會成為下一代基礎設施建設和基礎理論研究里非常重要的一個組成部分,如果我們現在不趕上,下一個30年可能就趕不上了。
《華夏時報》:人工智能產業結構方面,最重要的是技術層?
劉睿民:對,基礎還是算法。
比如對算法的抽象,包括算法進一步的推演,這些東西其實我們國家是沒有人做的。做,也都是放到中科院數學所這種地方去做。但是數學所的東西又可能是跟實際相脫節的。
《華夏時報》:這方面有什么好的建議?
劉睿民:以前很多做這方面研究的人,包括做數據庫的一些前輩,或是在這方面有些想法的人,都曾建議在這方面有更多的投入,但其實最主要的還是要形成一個類似于硅谷的氛圍。比如做自動駕駛的Elon Musk(埃隆·馬斯克,1971年6月28日出生于南非的行政首都比勒陀利亞,擁有加拿大和美國雙重國籍,企業家、工程師、慈善家,現任美國太空探索技術公司CEO兼CTO、特斯拉公司CEO兼產品架構師、太陽城公司董事會主席),火箭飛上去掉了也不止一次了,但是允許他失敗。
這個“允許失敗”里面蘊含著很多東西。比如在他失敗以后,怎么通過市場行為解決相關問題?國家能否出一些政策配合去解決問題?這其實是讓那些勇于嘗試的人,尤其對那些在智能制造的基礎設施、人工智能的基礎設施方面做探索的人,再去探索。如果摔在坑里爬不出來,怎么去做第二次探索?
《華夏時報》:鼓勵研究人員大膽嘗試、探索。
劉睿民:嘗試了以后,要解決他的后顧之憂,解決不了后顧之憂,嘗試完了,已經沒有能力再嘗試了。
《華夏時報》:所以美國在相關方面的理論研究仍然遙遙領先?
劉睿民:對。為什么我大概一年有兩到三個月會在硅谷,某種程度上是去“呼吸新鮮空氣”。中國其實也很市場化,但市場化以后導致大家只盯著應用、只想著掙錢。為什么很多應用型的東西都出在中國,O2O、ofo(共享單車),這些沒什么技術門檻的應用,我們很在行,為什么?因為傻錢很容易進去,只要能把這個棒接下去,這事就能干下去。但是做人工智能基礎研究不是這樣,可能并不需要太多人,也不需要造幾百萬輛自行車的簡單勞動,但卻要做算法研究的人,也需要將算法成功地應用于一些商業領域。
這次國際信標委全會的主席跟我的導師居然還是故交,他說,當初年輕的時候做過的一個案例,是自動倉庫。——現在他已經70歲了。也就是說美國在一九六幾年的時候,已經在自動倉庫上做了很多探索,形成了在自動倉庫方面一些隱形的小巨人。由此來看,我們要培養一些個頭很大的類似BAT這樣的大巨人,是不是也要培養一堆散落在各個領域里的小巨人?答案是肯定的,小巨人應該越多越好。
《華夏時報》:小巨人這個概念很好。回到大數據方面,大數據應該就是為人工智能而生的,為什么說大數據和人工智能結合,就能夠發揮很大的能量?
劉睿民:最關鍵就是原來基于統計的這些算法,最后提煉出來的人工智能的算法,其實需要大量數據。這是一個循環往復的過程。技術的推動,導致了大量數據的產生,同時促進了算法的提升和其在各領域的應用;算法的提升,又使得大量的數據同時產生,對數據搬運的要求也進一步提升;因為會產生延遲,所以對硬件的發展又產生促進,硬件要更上一層樓。——所以,這本身是一個技術推進的過程。
《華夏時報》:國內這兩年已經有一些這方面所謂的科技領導者,包括BAT在內。怎么評價他們的貢獻?
劉睿民:應該說在應用領域用的比較透徹,但是中國基本上在這個領域所謂的領導者,待風潮過去會怎么樣,就要到時候再看了。
應用到一定程度以后,如果基礎的東西不跟上,就會有后顧之憂。
《華夏時報》:柏睿這樣的公司,在業內算是技術先鋒公司,怎樣看它對人工智能產生的影響力或其所做的一些市場布局?
劉睿民:我們看好人工智能算法是基于統計算法,看好統計算法的函數化在數據庫層面的使用,最終把它變成基礎設施的一部分,為使用數據庫的人提供通用的服務,甚至他不需要知道算法到底在干什么,只要用標準的數據庫服務,用這個算法,把數據喂給機器,機器吐出計算結果,就這么簡單。就像機械一樣,你需要知道某個泵是怎么造的嗎?不需要。只須拿它當抽水機或吸塵器,如此而已。