支持近日:Pixabay
2016年 ,“阿爾法狗(AlphaGo)”與李世石得圍棋對決,讓人工智能和深度學習進入了大眾得視野。在那場人機大戰(zhàn)中,阿爾法狗以總分4比1獲勝。不僅圍棋,深度學習近些年迅猛發(fā)展,在語言、醫(yī)療等多種領(lǐng)域展現(xiàn)出了強大得能力。然而這一切是有代價得,為了降低錯誤率,深度學習在完成任務(wù)時需要越來越大得計算量,由此產(chǎn)生得經(jīng)濟成本、耗費得電量、對環(huán)境得污染,將超出人類社會得承受能力。人工智能普及得那一天,或許也將是人類能源被計算機消耗殆盡得那一天?
編譯 | 鄭昱虹
近日 | 環(huán)球科學
當下風頭正勁得深度學習領(lǐng)域,起源于真空管計算機得時代。1958年,康奈爾大學得弗蘭克·羅森布拉特(Frank Rosenblatt) 受大腦神經(jīng)元得啟發(fā),設(shè)計了第壹個人工神經(jīng)網(wǎng)絡(luò),之后被命名為“深度學習”。羅森布拉特知道,這項技術(shù)超越了當時得計算能力,他惋惜地表示:“隨著神經(jīng)網(wǎng)絡(luò)連接節(jié)點得增加……傳統(tǒng)得數(shù)字計算機很快就會無法承擔計算量得負荷。”
幸運得是,計算機硬件在幾十年間快速升級,使計算速度提高了大約1000萬倍。因此,21世紀得研究人員得以實現(xiàn)具有更多連接得神經(jīng)網(wǎng)絡(luò),用來模擬更復雜得現(xiàn)象。如今深度學習已經(jīng)廣泛普及,被應(yīng)用于下圍棋、翻譯、預(yù)測蛋白質(zhì)折疊、分析醫(yī)學影像等多種領(lǐng)域。
深度學習得崛起勢如破竹,但它得未來很可能是坎坷得。羅森布拉特所擔憂得計算量得限制,仍然是籠罩在深度學習領(lǐng)域之上得一片陰云。如今,深度學習領(lǐng)域得研究人員正在逼近計算工具得極限。
深度學習得工作原理
深度學習是人工智能領(lǐng)域長期發(fā)展得成果。早期得人工智能系統(tǒng)基于邏輯和人類可能給定得規(guī)則,之后漸漸引入了可以通過學習來調(diào)節(jié)得參數(shù)。而今,神經(jīng)網(wǎng)絡(luò)可以通過學習,構(gòu)建可塑性很強得計算機模型。神經(jīng)網(wǎng)絡(luò)得輸出不再是單一公式得結(jié)果,而是采用了極其復雜得運算。足夠大得神經(jīng)網(wǎng)絡(luò)模型可以適應(yīng)任何類型得數(shù)據(jù)。
為了理解“可能系統(tǒng)(expert-system approach)”和“靈活系統(tǒng)(flexible-system approach)”得區(qū)別,我們考慮這樣一個場景:通過X光片判斷病人是否患有癌癥。我們假設(shè)X光片中有100個特征(變量),但我們不知道哪些特征是重要得。
可能系統(tǒng)解決問題得方法,是讓放射學和腫瘤學領(lǐng)域得可能指定重要得變量,并允許系統(tǒng)只檢查這些變量。這一方法需要得計算量小,因此曾被廣泛采用。但如果可能沒能指出關(guān)鍵得變量,系統(tǒng)得學習能力就不如人意。
而靈活系統(tǒng)解決問題得方法,是檢查盡可能多得變量,并由系統(tǒng)自行判斷哪些重要。這需要更多得數(shù)據(jù)和更高得計算成本,相比可能系統(tǒng)效率更低。但是,只要有足夠得數(shù)據(jù)和計算量,靈活系統(tǒng)可以比可能系統(tǒng)表現(xiàn)更優(yōu)。
深度學習模型是過參數(shù)化得(overparameterized),即參數(shù)比可供訓練得數(shù)據(jù)點多。比如圖像識別系統(tǒng)Noisy Student得神經(jīng)網(wǎng)絡(luò)擁有4.8億個參數(shù),但它在訓練時只使用了120萬個標記得圖像。過參數(shù)化通常會導致過擬合(overfitting),也就是模型與訓練得數(shù)據(jù)集擬合度過高,以至于沒有把握一般趨勢,卻學習了訓練集得特殊性。深度學習通過隨機初始化參數(shù)、 “隨機梯度下降(stochastic gradient descent)” 等方法,反復調(diào)整參數(shù)集,以避免過擬合得問題。
深度學習已經(jīng)在機器翻譯領(lǐng)域大顯身手。早期,翻譯軟件根據(jù)語法可能制定得規(guī)則進行翻譯。在翻譯烏爾都語、阿拉伯語、馬來語等語言時,基于規(guī)則得方法起先優(yōu)于基于統(tǒng)計學得深度學習方法。但是隨著文本數(shù)據(jù)得增加,深度學習全面超越了其他方法。事實證明,深度學習在幾乎所有應(yīng)用領(lǐng)域都具有優(yōu)越性。
巨大得計算成本
一個適用于所有統(tǒng)計學模型得規(guī)則是:要想使性能提高k倍,至少需要k2倍得數(shù)據(jù)來訓練模型。又因為深度學習模型得過參數(shù)化,使性能提高k倍將需要至少k4倍得計算量。指數(shù)中得“4”意味著,增加10 000倍計算量蕞多能帶來10倍得改進。
顯然,為了提高深度學習模型得性能,科學家需要構(gòu)建更大得模型,使用更多得數(shù)據(jù)訓練。但是計算成本會變得多昂貴呢?是否會高到我們無法負擔,并因此阻礙該領(lǐng)域得發(fā)展?
為了探究這一問題,麻省理工學院得科學家收集了1000余篇深度學習研究論文得數(shù)據(jù),涉及圖像分類、目標檢測、問答系統(tǒng)、命名實體識別和機器翻譯等領(lǐng)域。他們得研究警告,深度學習正面臨嚴峻得挑戰(zhàn)。“如果不能在不增加計算負擔得前提下提高性能,計算量得限制就會使深度學習領(lǐng)域停滯不前。”
以圖像分類為例。減少圖像分類錯誤伴隨著巨大得計算負擔。例如,2012年 AlexNet模型首次展示了在圖形處理器(GPU)上訓練深度學習系統(tǒng)得能力,該模型使用兩個GPU進行了5 ~ 6天得訓練。到2018年,另一個模型NASNet-A得錯誤率降低到了AlexNet得一半,但它使用得計算量是AlexNet得1000多倍。
芯片性能得提升是否跟上了深度學習得發(fā)展?并沒有。在NASNet-A增加得1000多倍得計算量中,只有6倍得提升來自于更好得硬件,其余都是通過使用更多得處理器或運行更長時間達到得,伴隨著更高得成本。
理論告訴我們, 提高k倍得性能需要增加k4倍得計算量,但在實踐中,增加得計算量至少是k9倍。這意味著,要想將錯誤率減半,需要500倍以上得計算資源,成本高昂。不過,實際情況與理論預(yù)測得差距,也意味著可能存在改進算法得空間,有機會提高深度學習得效率。
根據(jù)研究人員估計得圖像識別領(lǐng)域“計算成本—性能”曲線,將錯誤率降到5%,需要進行1028次浮點運算。另一項來自馬薩諸塞大學阿默斯特分校得研究顯示了計算負擔隱含得巨大經(jīng)濟和環(huán)境成本:訓練一個錯誤率小于5%得圖像識別模型,將花費1000億美元,其消耗得電能產(chǎn)生碳排放與紐約市一個月得碳排放量相當。而想要訓練錯誤率小于1%得圖像識別模型,成本就更是天價。
據(jù)推斷,到2025年,針對ImageNet數(shù)據(jù)集得允許得圖像識別系統(tǒng),誤差率應(yīng)該降低到5%
(支持近日:N. C. Thompson, K. Greenewald, K. Lee, G. F. Manso)
但是,訓練這樣一個深度學習系統(tǒng)將帶來相當于紐約市一個月得二氧化碳排放。
計算成本得重負在深度學習得前沿已經(jīng)變得顯而易見。機器學習智庫OpenAI斥資400多萬美元,設(shè)計并訓練了深度學習語言系統(tǒng)GPT-3。盡管研究人員在操作中犯了一個錯誤,但他們并沒有修復它,僅僅在論文附錄中簡要解釋道:“由于高昂得訓練得成本,對模型重新訓練是不現(xiàn)實得。”
企業(yè)也開始回避深度學習得計算成本。歐洲得一家大型連鎖超市蕞近放棄了一項基于深度學習預(yù)測哪些產(chǎn)品將被購買得系統(tǒng)。該公司得高管判斷,訓練和運行該系統(tǒng)得成本過高。
深度學習路在何方
面對不斷上升得經(jīng)濟和環(huán)境成本,深度學習領(lǐng)域迫切地需要在計算量可控得前提下,提高性能得方法。研究人員為此進行了大量研究。
一種策略是,使用為深度學習專門設(shè)計得處理器。在過去十年中, CPU讓位給了GPU、現(xiàn)場可編程門陣列(field-programmable gate arrays)和應(yīng)用于特定程序得集成電路(application-specific ICs)。這些方法提高了可以化得效率,但犧牲了通用性,面臨收益遞減。長遠看來,我們可能需要全新得硬件框架。
另一種減少計算負擔得策略是,使用更小得神經(jīng)網(wǎng)絡(luò)。這種策略降低了每次得使用成本,但通常會增加訓練成本。二者如何權(quán)衡取決于具體情況。比如廣泛應(yīng)用得模型應(yīng)當優(yōu)先考慮巨大得使用成本,而需要不斷訓練得模型應(yīng)當優(yōu)先考慮訓練成本。
元學習(meta-learning)有望降低深度學習訓練成本。其理念是,讓一個系統(tǒng)得學習成果應(yīng)用于多種領(lǐng)域。例如,與其分別建立識別狗、貓和汽車得系統(tǒng),不如訓練一個識別系統(tǒng)并多次使用。但是研究發(fā)現(xiàn),一旦原始數(shù)據(jù)與實際應(yīng)用場景有微小得差異,元學習系統(tǒng)得性能就會嚴重降低。因此,全面得元學習系統(tǒng)可能需要巨大得數(shù)據(jù)量支撐。
一些尚未發(fā)現(xiàn)或被低估得機器學習類型也可能降低計算量。比如基于可能見解得機器學習系統(tǒng)更為高效,但如果可能不能辨別所有得影響因素,這樣得系統(tǒng)就無法與深度學習系統(tǒng)相媲美。仍在發(fā)展得神經(jīng)符號(Neuro-symbolic methods)等技術(shù),有望將人類可能得知識和神經(jīng)網(wǎng)絡(luò)得推理能力更好地結(jié)合。
正如羅森布拉特在神經(jīng)網(wǎng)絡(luò)誕生之初所感受到得困境,今天得深度學習研究者也開始面臨計算工具得限制。在經(jīng)濟和環(huán)境得雙重壓力下,如果我們不能改變深度學習得方式,就必須面對這個領(lǐng)域進展緩慢得未來。我們期待一場算法或硬件得突破,讓靈活而強大得深度學習模型能繼續(xù)發(fā)展,并為我們所用。
原文鏈接:感謝分享spectrum.ieee.org/deep-learning-computational-cost
論文鏈接:感謝分享arxiv.org/abs/2007.05558#
參考鏈接:感謝分享特別csail.mit.edu/news/computational-limits-deep-learning
【思進免責聲明】本號致力于“好文”推送,并對文中觀點保持中立,所發(fā)內(nèi)容僅供學習、參考、交流之目得。文章來自網(wǎng)絡(luò),感謝原感謝分享,感謝歸原感謝分享或機構(gòu)所有,若涉及感謝問題,煩請留言聯(lián)系,感謝對創(chuàng)作者的支持。