專業(yè)的硬件平臺是人工智能、機器學習和深度學習的未來,也是我們所生活的云到邊緣世界的每一項任務的未來。
人工智能的快速發(fā)展正在催生一種新型的機器學習和深度學習的硬件加速器。
一些人把這稱為“寒武紀大爆發(fā)”,這是對當前狂熱創(chuàng)新時期的一個恰當比喻。它指的是大約5億年前的一段時期,基本上所有多細胞動物的生物“身體結(jié)構(gòu)”都是在那時首次出現(xiàn)的。從那時起,這些生物——包括我們自己在內(nèi)——開始分散開來,占領(lǐng)、開發(fā)并徹底改變地球上的每一個生態(tài)位。
創(chuàng)新的人工智能硬件加速器架構(gòu)的范圍正不斷擴大。雖然您可能認為圖形處理單元(GPU)是主要的人工智能硬件架構(gòu),但這遠非事實。在過去幾年中,無論是初創(chuàng)企業(yè)還是老牌芯片供應商都推出了令人印象深刻的新一代硬件架構(gòu),這些架構(gòu)針對機器學習、深度學習、自然語言處理和其他人工智能工作負載進行了優(yōu)化。
除了新一代的GPU之外,這些新的AI優(yōu)化芯片組體系結(jié)構(gòu)中最主要的是神經(jīng)網(wǎng)絡處理單元( NNPUs )、現(xiàn)場可編程門陣列( FPGAs )、專用集成電路( ASIC )和各種被稱為神經(jīng)突觸結(jié)構(gòu)的相關(guān)方法。正如Ars Technica上的一篇文章所指出的,今天的人工智能市場沒有相當于英特爾x86 CPU的硬件單一文化,而x86 CPU曾經(jīng)主宰著桌面計算領(lǐng)域。這是因為,這些新的人工智能加速器芯片架構(gòu)正在適應迅速發(fā)展的云到邊緣生態(tài)系統(tǒng)(如計算機視覺)中高度特定的角色。
AI加速器芯片的發(fā)展
要了解AI加速器芯片的快速發(fā)展,最好將重點放在市場機遇和挑戰(zhàn)上,如下所示。
AI層
要了解人工智能加速器是如何發(fā)展的,先看看邊緣生態(tài)系統(tǒng),在那里新的硬件平臺正在被優(yōu)化,以實現(xiàn)移動、嵌入式和物聯(lián)網(wǎng)設備的更大自主性。除了智能手機嵌入式人工智能處理器的激增之外,這方面最值得注意的是人工智能機器人技術(shù)的創(chuàng)新,它正在滲透到從無人駕駛汽車到無人駕駛飛機、智能電器和工業(yè)物聯(lián)網(wǎng)的所有領(lǐng)域。
在這方面最值得注意的進展之一,是英偉達(Nvidia)對其Jetson Xavier AI系列芯片(SOCs)上的人工智能系統(tǒng)的最新增強。NVIDIA發(fā)布了Isaac軟件開發(fā)工具包,以幫助構(gòu)建在其專用機器人硬件上運行的機器人算法。
Jetson Xavier芯片反映了智能機器人的復雜性,由六個處理單元組成,包括512核的Nvidia Volta Tensor Core GPU、八核的Carmel Arm64 CPU、雙Nvidia深度學習加速器以及圖像、視覺和視頻處理器。這些讓它可以處理數(shù)十種算法,幫助機器人自主感知環(huán)境,有效響應,并與人類工程師一起安全的操作。
人工智能任務
AI加速器已經(jīng)開始滲透到分布式云到邊緣、高性能計算、超聚合服務器和云存儲體系結(jié)構(gòu)中的每一層。所有這些領(lǐng)域都有源源不斷的新硬件創(chuàng)新,以支持更快速、更高效和準確的人工智能處理。
人工智能硬件創(chuàng)新正在進入市場,以加速這些不同應用環(huán)境的特定數(shù)據(jù)驅(qū)動的任務。市場上無數(shù)的人工智能芯片組架構(gòu)反映了機器學習、深度學習、自然語言處理和其他人工智能工作負載的不同范圍,從存儲密集型到計算密集型,涉及到不同程度的設備自主性和人與人之間的互動。
為了解決AI芯片組用于支持的各種工作負載,供應商在其產(chǎn)品組合中甚至在特定的嵌入式AI部署中混合了各種技術(shù),例如驅(qū)動智能機器人和移動應用的SOC。
Intel的Xeon Phi CPU架構(gòu)已經(jīng)被用于加速人工智能任務。但是英特爾認識到,如果沒有專門的AI加速器芯片,它將無法跟上時代的步伐,因為這些芯片讓它能夠與Nvidia Volta (在GPU中)以及大量生產(chǎn)NNPUs和其他專門AI芯片的廠商正面競爭。因此,英特爾現(xiàn)在有一個產(chǎn)品團隊正在開發(fā)一個新的GPU,將在未來兩年內(nèi)發(fā)布。
與此同時,它繼續(xù)通過AI優(yōu)化的芯片組對下面幾種架構(gòu)類別進行風險對沖:神經(jīng)網(wǎng)絡處理器(Nervana),F(xiàn)PGA(Altera),計算機視覺ASIC(Movidius)和自動駕駛汽車ASIC(MobilEye)。它還計劃為下一代人工智能的挑戰(zhàn)構(gòu)建自學習神經(jīng)形態(tài)和量子計算的芯片。
AI容差
每一個加速硬件創(chuàng)新都必須擁有滿足在相關(guān)的操作和經(jīng)濟公差中實現(xiàn)特定指標的能力。
在操作指標中,每個AI芯片組必須符合形狀因素、能效、熱和電磁輻射以及在堅固性方面的相關(guān)約束。
在經(jīng)濟度量中,它必須在性能和成本方面具有競爭力,以適應其要部署到的層和任務。比較行業(yè)基準將成為決定AI加速器技術(shù)能否在競爭激烈的市場生存下去的關(guān)鍵因素。
在一個正在走向工作負載優(yōu)化的人工智能體系結(jié)構(gòu)的行業(yè)中,用戶將采用最快、最可擴展、最節(jié)能和成本最低的硬件、軟件和云平臺來運行他們的人工智能任務,包括在每一層中進行開發(fā)、培訓、操作和推理。
AI加速器專用集成電路的多樣性
當下的AI加速器硬件架構(gòu)百花齊放。它們是如此的多樣化,如此的發(fā)展迅速,以至于人們很難跟上這個市場不斷創(chuàng)新的步伐。
除了核心的人工智能芯片組制造商(如Nvidia和intelasics)之外,針對特定平臺的AI工作負載的制造商比比皆是。你可以在最近的幾個新聞中看到這種趨勢:
•微軟正在為其HoloLens現(xiàn)實增強耳機準備一款AI芯片。
•Google有一個特殊的NNPU,即Tensor處理單元,可用于Google Cloud Platform上的AI應用程序。
•據(jù)報道,亞馬遜正在為其Alexa家庭助理開發(fā)AI芯片。
•Apple正在開發(fā)一款能為Siri和FaceID提供動力的AI處理器。
•特斯拉(Tesla)正在為其自動駕駛汽車開發(fā)人工智能處理器。
AI加速器的基準框架開始出現(xiàn)
AI加速器市場中的跨供應商的合作伙伴關(guān)系正變得越來越復雜和重疊。例如,看看中國科技巨頭百度是如何分別與英特爾和英偉達合作的。除了在自然語言處理、圖像識別和自動駕駛方面推出自己的NNPU芯片外,百度還與英特爾合作,在其公共云上支持FPGA支持的AI工作負載加速,推出一個用于Xeon CPU的AI框架、配備人工智能的自主汽車平臺、電腦視覺驅(qū)動的零售攝像頭,以及采用英特爾nGraph的一個硬件無關(guān)的深層神經(jīng)網(wǎng)絡編譯器。這一切都是在與英偉達發(fā)布類似的聲明之后,包括將Volta GPU引入百度云,對百度的paddelpaddle AI開發(fā)框架進行調(diào)整,并將Nvidia驅(qū)動的AI推向中國消費者市場。
在云計算和專業(yè)SoCs中,整理這些令人困惑的AI加速器硬件選項及其組合已經(jīng)變得越來越困難。如果沒有靈活的基準測試框架,將AI加速器硬件在任何給定任務上對整體性能的貢獻分離出來是很困難的。
幸運的是,人工智能行業(yè)正在開發(fā)開放、透明和與供應商無關(guān)的框架,以用于評估不同工作負載下不同硬件/軟件棧的性能比較。
MLPerf
例如,MLPerf開源基準組正在開發(fā)一個標準套件,用于對機器學習軟件框架、硬件加速器和云平臺的性能進行基準測試。MLPerf可以在GitHub上獲取,目前仍是測試版,它為當今人工智能部署中占主導地位的一些人工智能任務提供了參考實現(xiàn)。它將基準限制在特定算法(如resnet - 50v1)對特定數(shù)據(jù)集(如ImageNet)執(zhí)行的特定AI任務(如圖像分類)上。核心基準集中在特定的硬件/軟件部署上,比如在ubuntu16.04、Nvidia Docker和CPython 2上運行的圖像分類訓練任務,這些任務由16個CPU芯片、一個Nvidia P100 Volta GPU和600G本地磁盤組成。
MLPerf框架足夠靈活,因此可以想象,基于GPU的圖像分類訓練可以與運行在不同硬件加速器上的相同任務(比如最近發(fā)布的百度Kunlun FPGAs )進行基準對比,但是要使用等效的軟件/硬件堆棧。
其他人工智能行業(yè)基準測試計劃也支持對替代人工智能加速器芯片以及部署中的其他硬件和軟件組件進行比較性能評估,這些組件使用相同的模型針對相同的訓練或運營數(shù)據(jù)來處理相同的任務。其他的基準指標包括DawnBench、ReQuest、Transaction Processing Performance委員會的人工智能工作組和CEAN2D2。它們都足夠靈活,可以應用于任何部署層中運行的任何人工智能工作負載任務,并可以根據(jù)任何經(jīng)濟容差進行測量。
EEMBC機器學習基準套件
在將人工智能工作負載轉(zhuǎn)移到邊緣的過程中,一些人工智能基準測試計劃完全側(cè)重于測量部署在這一層的硬件/軟件棧的性能。例如,行業(yè)聯(lián)盟EEMBC最近開始了一項新的工作,定義一個基準套件,用于在功率受限的邊緣設備中運行的優(yōu)化芯片組中執(zhí)行機器學習任務。在英特爾的主持下,EEMBC的機器學習基準套件組將使用來自虛擬助理、智能手機、物聯(lián)網(wǎng)設備、智能揚聲器、物聯(lián)網(wǎng)網(wǎng)關(guān)和其他嵌入式/邊緣系統(tǒng)的真實機器學習工作負載,來確定用于加速機器學習推理作業(yè)的處理器內(nèi)核的性能潛力和能效。
EEMBC機器學習基準將測量低、中、高復雜度推理任務的推理性能、神經(jīng)網(wǎng)絡啟動時間和功率效率。它與機器學習前端框架、后端運行時環(huán)境和硬件加速器目標無關(guān)。該小組正在進行概念驗證,并計劃在2019年6月前發(fā)布其初始基準套件,解決一系列基于邊緣推理的神經(jīng)網(wǎng)絡架構(gòu)和用例。
EEMBC Adasmark基準測試框架
EEMBC的Adasmarkbenchmarking框架專注于配備AI的智能車輛,針對的是較窄范圍的邊緣層和任務。除了機器學習基準測試之外,EEMBC還在為嵌入在高級輔助駕駛系統(tǒng)的AI芯片開發(fā)一個單獨的性能測量框架。
該套件有助于測量在多設備、多芯片、多應用智能汽車平臺上執(zhí)行的人工智能推理任務的性能。它對與高度并行的智能車輛應用程序(如計算機視覺、自動駕駛、汽車環(huán)繞視圖、圖像識別和移動增強現(xiàn)實)相關(guān)聯(lián)的現(xiàn)實世界推斷工作負載進行了基準測試。它可以度量復雜智能汽車邊緣架構(gòu)的推理性能,這些架構(gòu)通常包括多個專用CPU,GPU以及在公共機箱內(nèi)執(zhí)行不同任務的其他硬件加速器芯片組。
新興的人工智能場景將需要更多的特殊芯片
幾乎可以肯定的是,還會有其他專門的AI邊緣場景出現(xiàn),它們需要自己的專用芯片、SoCs、硬件平臺和基準測試。AI芯片組的下一個巨大增長領(lǐng)域可能是用于加快加密貨幣挖掘的邊緣節(jié)點,這一用例與AI和游戲一起,已經(jīng)吸收了對Nvidia GPU的大量需求。
專注于這一領(lǐng)域的一家供應商是DeepBrain Chain,它最近宣布了一種計算平臺,可以部署到分布式配置中,以實現(xiàn)人工智能工作負載的高性能處理和加密貨幣的挖掘。采礦站有兩個、四個和八個GPU的配置,以及獨立工作站和128個GPU的定制AI HPC集群。
不久之后,我們幾乎肯定會看到新一代的專注于分布式加密貨幣挖掘的人工智能ASIC。
在我們生活的這個從云到邊緣計算的世界中,為每一層和每一項任務采用專業(yè)的硬件平臺是人工智能的未來。
