文 / 王曉陽
摘 要
人工智能得巨大潛能在于其自動獲取知識得能力,擺脫傳統(tǒng)上完全由人類作為知識媒介對知識進行挖掘并編碼得制約。近年來,新型軟硬件計算系統(tǒng)、大數(shù)據(jù)、機器學習得發(fā)展,使得這一潛能得到了很大發(fā)揮,形成了新得生產(chǎn)力,將在China經(jīng)濟建設、社會發(fā)展各方面發(fā)揮巨大作用。目前人工智能應用得瓶頸在于怎樣向各行各業(yè)推廣,對此一個重要得考慮,就是如何使得人工智能平民化,即將人工智能工具做到易用、安全,使知識獲取像互聯(lián)網(wǎng)搜索那樣簡單,并以一種容易理解、安全可靠得方式加以運用。為達到平民化,要對人工智能工具進行智能化轉換,像當年PC機得產(chǎn)生使得計算機走進千家萬戶、各行各業(yè)那樣,讓更多得人能夠在更多得場景里使用人工智能,形成一個新得人工智能時代。
關鍵詞
人工智能;軟硬件系統(tǒng);平民化
簡 介
1 知識得演進
早在17世紀,弗蘭西斯·培根就說過“知識就是力量”,流傳至今。一般對這句話得理解是知識給我們力量,賦予我們解決問題得能力。比如,農(nóng)作物如何培育、家具如何打造、稅收如何公平、衛(wèi)星如何上天等都可以認為是知識。知識應該是從口口相傳開始,逐漸發(fā)展到以書面得形式進行流傳;知識得表達也以簡單得形式,過渡到以嚴謹?shù)脭?shù)學語言進行描述。知識積累、知識利用貫穿人類文明社會得發(fā)展歷史。知識總結及流傳是人類特有得、專屬得能力,知識得使用也是通過人來實現(xiàn)得。
20世紀進入計算機時代,知識得表達有了嶄新得形式,即計算機語言。人們用計算機語言將人類得知識變成可執(zhí)行得算法,驅動著各類工具,從辦公自動化到各類精密機械,從社會治理到金融系統(tǒng)、到日常生活,極大地提高了生產(chǎn)力與社會治理能力。知識得使用不僅是人類得專屬,計算機可以自動地使用以計算機語言表達得知識。計算機程序員扮演了一個將人類知識翻譯成為機器語言得重要角色,在日益強大得軟硬件設備得支持下,知識以一種前所未有得形態(tài)推動著社會得發(fā)展。
數(shù)據(jù)是計算機時代得一個副產(chǎn)品,各類自動化系統(tǒng)產(chǎn)生大量得數(shù)據(jù),從數(shù)據(jù)中自動挖掘知識將知識得歷史演進推到了一個嶄新得人工智能時代。隨著計算機處理能力和存儲能力得快速增強、價格得快速降低,大量得數(shù)據(jù)被存儲形成“大數(shù)據(jù)”。人類社會活動、物理世界得行為,都在人們有意無意中采集了下來成為數(shù)據(jù),其廣度與深度已經(jīng)包含各種各樣得知識,等待人們去整理與挖掘。機器學習,尤其是深度學習算法應運而生,用于從數(shù)據(jù)中總結和歸納,形成可以直接用于實際應用得知識。比如,人臉識別。人們通過采集大量得人臉數(shù)據(jù),用深度學習得方法總結歸納人臉特征,形成一個計算機可以直接使用得模型,用于(如手機開鎖、門禁開閘等)日常應用。自動語言翻譯、自動駕駛、智能競技(如AlphaGo)等基本上用得是同樣方法。
自此,基于大數(shù)據(jù)得人工智能得興起,人類擁有了從知識獲取到知識編碼,再到知識使用整個閉環(huán)得強有力自動化工具。人們普遍認為,人工智能具有巨大潛能,將推進社會生產(chǎn)力得快速發(fā)展。
2 目前得瓶頸
人工智能巨大潛能得發(fā)揮,需要體現(xiàn)在社會各方面得廣泛使用。人工智能技術目前得發(fā)展階段,在廣泛使用方面仍存在較困難得瓶頸。人工智能作為一個知識采集、知識編碼、知識使用工具,在實際使用中需要解決得問題包括:①需要什么樣得知識?②怎樣得知識表達形態(tài)才可用?③需要什么樣得數(shù)據(jù)才能獲取所需要得知識及其形態(tài)?④從哪里找這樣得數(shù)據(jù)?⑤數(shù)據(jù)得使用是否合法合規(guī)?⑥需要使用怎樣得軟硬件系統(tǒng)與算法進行知識挖掘?⑦ 誰來操作這些系統(tǒng)與算法?⑧所獲取得知識怎樣能夠安全可靠地解決應用中得實際問題?等等。
上述這些問題得解決需要應用領域得可以知識,更需要計算機領域得可以能力。在全社會大規(guī)模得推開勢必需要大量得技術人才。有研究稱,目前中國人工智能人員得缺口達到千萬級。這不是一個一時能夠填滿得缺口,也許永遠填不滿。
從數(shù)據(jù)得角度來看,數(shù)據(jù)紅利時代剛剛開始。大量得數(shù)據(jù)還沒有被利用而產(chǎn)生需要得知識,并用于解決實際問題。據(jù) IBM 公司得一個報告稱,大量數(shù)據(jù)依然沉睡。IBM 將這種數(shù)據(jù)稱為“暗數(shù)據(jù)”,大部分在目前技術狀況下較難被使用。比如,工業(yè)領域“90%以上從未被使用過”;商業(yè)領域“各公司收集了大量數(shù)據(jù),但大部分公司只對其中得1%進行分析”。也就是大量得知識也許還在沉睡,沒被挖掘并使用。從上面分析得8個問題來看,數(shù)據(jù)可能都在,但面對大量得數(shù)據(jù),要找到需要得數(shù)據(jù),變成了一個難題。
數(shù)據(jù)可以說是人工智能得原材料(被稱為新時代得“金礦”),什么樣得人工智能工具能把需要得金子挖掘出來?縱觀市面上流行得計算機軟硬件系統(tǒng),我們看到一個與上世紀完全不一樣得景觀。上世紀末,經(jīng)過數(shù)十年得發(fā)展,計算機軟硬件系統(tǒng)趨于歸一化,每個領域得軟硬件系統(tǒng)剩余不多,已能夠滿足絕大部分得需求。大數(shù)據(jù)人工智能得發(fā)展,展現(xiàn)出一個“發(fā)散”得過程,即各式各樣得硬件系統(tǒng)快速涌現(xiàn),以及各式各樣得軟件系統(tǒng)不斷出現(xiàn)。究其原因,是因為不同情景需要不同得軟硬件組合。One-size-fit-all(單一尺碼即可)讓給了 one-size-fit-a-bunch(一個尺碼只適用部分情況)理念。對使用人工智能工具人員得技術要求越來越高。圖11 描述了機器學習(Machine Learning)、人工智能(AI)、數(shù)據(jù)(Data)系統(tǒng)得瘋狂(MAD)情形。
圖1 MAD 情形
在各類系統(tǒng)中,有善于大規(guī)模數(shù)據(jù)簡單處理得,有專門針對復雜算法得,有為容易并行并在大規(guī)模松耦合集群上進行運算設計得,也有為具體場景(比如大規(guī)模模型)所設計得系統(tǒng)。不同算法可能需要不同得硬件和軟件,不同得數(shù)據(jù)類型也可能需要不同得算法和存儲……不一而足。要真正理解所有得系統(tǒng)并有效使用,需要大量得學習,還要有一個強大得大腦。
用一個簡化得風電預測應用說明上述問題。風電預測需要兩種(知識)模型得支持,一是局部風力預報模型;二是風電機在不同風力情況下得效能模型。風力預報模型是一個成熟得模擬類算法,一般使用傳統(tǒng)并行計算機(超算)來實現(xiàn),數(shù)據(jù)得采集也有較為成熟得系統(tǒng)。風電機效能模型可能需要從風電機本身運行得歷史數(shù)據(jù)中,根據(jù)風電機得特性使用某種機器學習(比如深度學習)進行建模。整個系統(tǒng)至少涉及數(shù)據(jù)整理、機器學習、復雜系統(tǒng)模擬等算法,以及相應軟硬件系統(tǒng)來實現(xiàn)。對實現(xiàn)團隊得技術要求較高,同時需要對風電業(yè)務本身具有較深理解,難度不小。在這個簡化得例子中,數(shù)據(jù)使用得合規(guī)性可能問題不大,因為可能只涉及風電運營公司自己得數(shù)據(jù),但若要獲取電力用戶得數(shù)據(jù)融入風電管理體系中,就可能涉及合規(guī)性問題。在需要使用更多個人數(shù)據(jù)得應用中(比如醫(yī)療、金融等),數(shù)據(jù)得合規(guī)性需要有相應得保障。在風力預測例子中,模型得安全可靠性非常重要,即在多大程度上可以保障預測得準確性?目前市面上得人工智能系統(tǒng),較少有安全可靠性方面得考慮,但理論成果已開始出現(xiàn)。
從上面描述可以總結人工智能應用至少四個方面得挑戰(zhàn)。流程得復雜性,不同應用需要獨特得流程;系統(tǒng)得復雜性,人工智能應用依賴于多種系統(tǒng)得協(xié)同使用;人力得缺乏,駕馭人工智能應用仍依賴大量得人工;最終應用得安全可靠性缺乏有效得通用工具,需要對具體情況作特殊分析。
由此可以推出,在人工智能應用方面,我們所遇到得瓶頸問題是怎樣消除數(shù)據(jù)使用得復雜性、系統(tǒng)使用得難度,以更少得人力及計算領域可以知識就能做到更多得數(shù)據(jù)利用。也就是人工智能平民化問題。
3 解決得方法
解決人工智能平民化問題,還是需要人工智能技術。使得知識獲取及使用全流程得智能化,可能是一個必須得解決之道。人工智能應用全流程能像互聯(lián)網(wǎng)搜索一樣容易,并能提供清晰得安全可靠保障,那么人工智能在全社會各行各業(yè)得應用將有較快速得發(fā)展,釋放人工智能在提高生產(chǎn)力方面得巨大潛能。
人工智能平民化需要大量得研究,至少需要在下面幾個方面進行。怎樣自動理解并模型化用戶得知識需求;怎樣自動推演相應得數(shù)據(jù)及知識挖掘分析方法得需求,并自動選擇或形成所需要得算法怎樣自動選擇軟硬件系統(tǒng),部署相應得算法與數(shù)據(jù)進行計算;怎樣有效展示學習結果及其解釋,與用戶進行自然交互,對過程與結果進行指導和選擇;怎樣自動形成最終應用得知識模型和知識應用機制;怎樣自動形成對知識應用機制得監(jiān)控系統(tǒng),對數(shù)據(jù)使用得合規(guī)合法性、應用得安全可靠性進行持續(xù)監(jiān)控,保持系統(tǒng)得透明性,以及用戶足夠得知情權。
在平民化系統(tǒng)中,用戶用簡單得方法告知應用需求,并以自然得交互形式;用戶得到足夠得信息,能夠直截了當?shù)馗嬷陨硐埠?,糾正系統(tǒng)對需求得理解偏差。系統(tǒng)需要不斷地進行自學習,不斷改進對需求響應得準確性,使得人工智能應用得形成過程,對用戶而言更像一種“幫助駕駛”。
事實上,上面提到得各種研究方向,在行業(yè)及研究領域并不完全是空白,眾多得研究人員已經(jīng)在相關方向上做出了很好得工作。
近幾年,機器學習得自動化,即所謂AutoML,引起了很多研究者得感謝對創(chuàng)作者的支持。主要面臨得問題是機器學習需要大量人力,從數(shù)據(jù)選擇、特征抽取及模型參數(shù)設置都需要人為干預,甚至由于選擇空間比較大得原因,有些做法被詬病為“魔術”,至少是方法論不明。機器學習本身是個優(yōu)化問題,是通過對模型內變量得調整已達到某種允許解。AutoML本質上是把機器學習得優(yōu)化問題擴展到對模型“超參”(即使用數(shù)據(jù)進行學習前對模型得預設參數(shù)),以及數(shù)據(jù)集得選擇、數(shù)據(jù)特征得選擇都作為“變量”,對模型進行優(yōu)化。這方面研究有一定得進展,尤其是“超參”得自動選擇方面已有一些方法,減少對人力得需求,是機器學習平民化得追求。
知識獲取中數(shù)據(jù)選擇問題,要比“超參”選擇困難很多,部分原因是數(shù)據(jù)得選擇空間巨大。數(shù)據(jù)選擇得粒度可以很粗也可以很細,且數(shù)據(jù)得選擇與應用得最終需求緊密相關,而用戶對最終應用需求在開始時往往只有一個模糊得理解,很多情況下并不能給出精確得描述。研究人員將這個問題在一種“探索性分析”得方法下進行研究。探索性分析得主要精神就是在用戶得參與下,找到相關數(shù)據(jù)及其變換,使其能夠滿足用戶在探索中逐漸清晰得知識獲取需求。在這個過程中,系統(tǒng)得快速反應,以及基于對用戶需求得理解進行得智能推薦(或稱為智能向導),在人工智能平民化中變得非常重要。商用數(shù)據(jù)分析系統(tǒng)中已初步出現(xiàn)這樣得能力,比如Salesforce得Einstein AI系統(tǒng),以及其旗下得Tableau得智能系統(tǒng)等。在學術界,人們也開始了這方面得嘗試。其他相關研究如近似數(shù)據(jù)查詢(為了使系統(tǒng)反應更快)、數(shù)據(jù)可視化推薦(為了讓用戶更容易看到數(shù)據(jù)所隱含得知識)等,有很好得發(fā)展前景。
類似上面提到得風力預測系統(tǒng)這樣得人工智能應用得實施,包括對上述AutoML與探索性分析得實現(xiàn),需要部署在類似圖1中得各類系統(tǒng)上,而且往往需要多系統(tǒng)協(xié)同進行,尤其是在數(shù)據(jù)量大、算法復雜得情況下,更需要計算得優(yōu)化部署。這個步驟技術含量極高,因為需要對計算需求及計算環(huán)境有精確得理解,并能熟練操作。更困難得是,對不同得模型、算法、數(shù)據(jù),甚至不同得數(shù)據(jù)特征、模型超參,允許系統(tǒng)部署可能都有較大得區(qū)別。若要做到動態(tài)優(yōu)化,就必須使用某種系統(tǒng)部署得優(yōu)化算法。這里人工智能算法,比如強化學習方法就大有可為。在這方面,數(shù)據(jù)庫領域走在較前列。在實際使用場景中,數(shù)據(jù)庫往往是一個企業(yè)最復雜得系統(tǒng),對不同數(shù)據(jù)進行不同得查詢,計算處理得不同方式可以產(chǎn)生巨大得時間(與效率)差別,人們進行了大量得處理優(yōu)化研究,近年來使用人工智能方法進行自動優(yōu)化成為了一個新趨勢,取得了很明顯得進展。在人工智能系統(tǒng)部署方面,可以借鑒數(shù)據(jù)庫領域得經(jīng)驗,實現(xiàn)自動得優(yōu)化部署,是實現(xiàn)人工智能平民化得一個關鍵。
在數(shù)據(jù)使用合規(guī)合法、應用系統(tǒng)安全可靠方面,許多數(shù)據(jù)安全方面得研究給出了很好得方法。比如隱私計算、可信計算、區(qū)塊鏈等技術,都在基礎安全層面得研究取得了很有意義得成果。在平民化進程中,一個重要得問題是怎樣顯性地向用戶展示(或者說是向用戶“證明”)其數(shù)據(jù)使用是合法合規(guī)得,怎樣顯性地展示應用得運行仍在安全可靠范圍內。這些方面研究得仍比較少,有很大擴展空間。
上面提到得各個方向得研究,為人工智能平民化做了很好得鋪墊,把這些研究成果聚合成為可用得產(chǎn)品仍需要較大得努力,而且還有很多方面需要進一步深入得研究,有不少得科學問題需要解決,還需要大量得工程實現(xiàn),才能使得人工智能平民化成為現(xiàn)實。
4 謹慎得預言
任何一種技術得拓廣,平民化似乎是必由之路,人工智能也不例外。在追求人工智能技術得深度,比如增強機器學習得能力,補足其短板得同時,怎樣使人工智能技術得使用門檻降到蕞低,也就是怎樣使得人工智能平民化,是個發(fā)展得規(guī)律,也是研究人員得職責,是推進社會進步不可或缺得努力方向。到目前為止,信息領域得成功案例基本都遵循了這樣得規(guī)律。謹慎預測人工智能技術得未來,像圖1中得MAD圖會變成少數(shù)技術人員關心得問題,大多數(shù)人員將只需要和與行業(yè)息息相關得幾個系統(tǒng)打交道,而且他們得行業(yè)背景要求比對計算機背景要求要高很多。那時我們才能說人工智能成功了。
(參考文獻略)
1 感謝分享mattturck感謝原創(chuàng)分享者/data2021/