|
云端智能芯片是面向人工智能領(lǐng)域大規(guī)模數(shù)據(jù)中心和服務(wù)器提供的核心芯片。5月3日,中國科學(xué)院發(fā)布國內(nèi)首款云端人工智能芯片,理論峰值速度達(dá)每秒128萬億次定點運算,達(dá)到世界先進水平,將廣泛應(yīng)用于智能手機、智能音箱、智能攝像頭、智能駕駛等不同領(lǐng)域——
智能芯片是前沿科技和社會關(guān)注的熱點,也是人工智能技術(shù)發(fā)展過程中不可逾越的關(guān)鍵環(huán)節(jié)。可以說,不論有怎樣領(lǐng)先的算法,要想最終應(yīng)用,都必須通過芯片實現(xiàn)。
5月3日,全球新一代人工智能芯片發(fā)布會在上海召開,中科院旗下的寒武紀(jì)科技公司發(fā)布了我國自主研發(fā)的Cambricon MLU100云端智能芯片和板卡產(chǎn)品、寒武紀(jì)1M終端智能處理器IP產(chǎn)品。這款國內(nèi)首個云端人工智能芯片,理論峰值速度達(dá)每秒128萬億次定點運算,達(dá)到世界先進水平。
智能芯片實現(xiàn)新突破
作為此次發(fā)布會焦點,首次正式亮相的Cambricon MLU100云端智能芯片,是我國首款云端AI芯片。
據(jù)中科院計算所研究員、寒武紀(jì)公司創(chuàng)始人兼CEO陳天石介紹,云端智能芯片是面向人工智能領(lǐng)域大規(guī)模數(shù)據(jù)中心和服務(wù)器提供的核心芯片。云端的智能芯片規(guī)模更大,結(jié)構(gòu)更加復(fù)雜,它和終端芯片的最大區(qū)別就在于其運算能力更強。
MLU100云端智能芯片采用寒武紀(jì)最新的MLUv01架構(gòu)和TSMC 16nm的先進工藝,可工作在平衡模式(1GHz主頻)和高性能模式(1.3GHz主頻)下,平衡模式下的等效理論峰值速度達(dá)每秒128萬億次定點運算,高性能模式下的等效理論峰值速度更可達(dá)每秒166.4萬億次定點運算,但典型板級功耗僅為80瓦,峰值功耗不超過110瓦。
“3年來,我們從研發(fā)兩顆測試芯片,一直到現(xiàn)在云端智能芯片的最終亮相,我們時刻準(zhǔn)備著‘由端入云’。”陳天石說,MLU100基于軟硬件協(xié)同提升內(nèi)存帶寬利用率,不管是從性能比,還是功耗比來說,寒武紀(jì)都將樹立智能芯片領(lǐng)域的新標(biāo)桿。
與寒武紀(jì)系列終端處理器一樣,MLU100云端芯片仍然延續(xù)了寒武紀(jì)產(chǎn)品一貫出色的通用性,可支持千萬量級用戶的大規(guī)模商用檢驗,搭載各類深度學(xué)習(xí)和經(jīng)典機器學(xué)習(xí)算法,充分滿足視覺、語音、自然語言處理、經(jīng)典數(shù)據(jù)挖掘等領(lǐng)域復(fù)雜場景下(如大數(shù)據(jù)量、多任務(wù)、多模態(tài)、低延時、高通量)的云端智能處理需求。
此外,這次最新發(fā)布的寒武紀(jì)1M處理器是公司的第三代IP產(chǎn)品,它延續(xù)了前兩代產(chǎn)品(寒武紀(jì)1H/1A)卓越的完備性,單個處理器核即可支持多樣化深度學(xué)習(xí)模型,并更進一步支持經(jīng)典機器學(xué)習(xí)算法和本地訓(xùn)練,為視覺、語音、自然語言處理以及各類經(jīng)典的機器學(xué)習(xí)任務(wù)提供了靈活高效的計算平臺,將廣泛應(yīng)用于智能手機、智能音箱、智能攝像頭、智能駕駛等不同領(lǐng)域。
“由端入云”協(xié)同發(fā)展
寒武紀(jì)科技公司脫胎于中科院計算所,于2016年發(fā)布了全球首款商用深度學(xué)習(xí)專用處理器——寒武紀(jì)1A處理器。它的橫空出世打破了多項紀(jì)錄,并入選了第三屆世界互聯(lián)網(wǎng)大會評選的十五項“世界互聯(lián)網(wǎng)領(lǐng)先科技成果”。目前,寒武紀(jì)處理器也已應(yīng)用于某知名國產(chǎn)手機新近發(fā)布的旗艦機型,實現(xiàn)了集成應(yīng)用。
近年來,人工智能產(chǎn)業(yè)迅猛發(fā)展,推動了芯片市場規(guī)模的快速增長,也推動了人工智能計算從終端向云端的延伸。陳天石表示,寒武紀(jì)在技術(shù)上貫徹“端云協(xié)作”的理念,這次發(fā)布的MLU100云端芯片,不僅可獨立完成各種復(fù)雜的云端智能任務(wù),更可以與寒武紀(jì)1A/1H/1M系列終端處理器完美適配,讓終端和云端在統(tǒng)一的智能生態(tài)基礎(chǔ)上協(xié)同完成復(fù)雜的智能處理任務(wù)。
陳天石指出,端側(cè)智能處理可以最快速響應(yīng)用戶需求,以非常低小的功耗、成本和延遲,幫助用戶理解圖像、視頻、語音和文本。同時,云側(cè)的智能處理則可以把多個端的信息匯聚在一起。由于終端的數(shù)據(jù)量有限,只能根據(jù)單個用戶的數(shù)據(jù)對機器學(xué)習(xí)模型進行微調(diào)。因此,端云協(xié)同的智能處理模式將在數(shù)據(jù)方面發(fā)揮巨大優(yōu)勢,利用海量數(shù)據(jù),訓(xùn)練出強大的人工智能模型。
“過去大部分芯片廠商都主攻端,例如芯片巨頭ARM公司,或是主攻云,例如英特爾公司。兩者兼顧的卻很少,因為端云的任務(wù)生態(tài)區(qū)別較大。但是智能時代這個局面會被全面打破。因為端和云的任務(wù)是一體的,編程和使用的生態(tài)也是一致的。作為一個通用機器學(xué)習(xí)芯片廠商,寒武紀(jì)就是要端云結(jié)合,共同推動智能芯片生態(tài)的發(fā)展。”陳天石說。
中科院上海分院副院長、中科院院士張旭表示,從過去在手機等終端上應(yīng)用的智能芯片,到今天更高一層的云端人工智能芯片,它可以使人們在手機等終端的應(yīng)用上升為未來在云端等領(lǐng)域更加廣闊的應(yīng)用,所以這是一個開拓性的突破。
當(dāng)前,眾多科技公司紛紛加大對人工智能芯片的研發(fā),包括智能手機、無人駕駛、云計算等各領(lǐng)域巨頭。根據(jù)相關(guān)機構(gòu)預(yù)測,到2021年,人工智能芯片市場規(guī)模將超過110億美元,而2016年這一數(shù)字僅為36億美元。
“寒武紀(jì)創(chuàng)立的初衷就是要讓全世界都能用上智能處理器。”陳天石告訴記者,寒武紀(jì)將秉承學(xué)術(shù)界開放、協(xié)作的精神,以處理器IP授權(quán)的形式與全世界同行共享寒武紀(jì)最新的技術(shù)成果,使全球客戶能夠快速設(shè)計和生產(chǎn)具備人工智能處理能力的芯片產(chǎn)品。
共建人工智能生態(tài)鏈
發(fā)布會上,寒武紀(jì)部分產(chǎn)業(yè)伙伴公開展示了基于寒武紀(jì)芯片的應(yīng)用方案。聯(lián)想集團高級副總裁童夫堯在發(fā)布會上推出了基于寒武紀(jì)MLU100智能處理卡的ThinkSystem SR650,打破了37項服務(wù)器基準(zhǔn)測試的世界紀(jì)錄。
“在新產(chǎn)品上,我們搭載了寒武紀(jì)的芯片,有助于各行各業(yè)在人工智能、VR、高性能計算等方面的研發(fā)和行業(yè)解決方案的落地。”童夫堯說。
不僅如此,芯片成果還將運用于智能語音領(lǐng)域。“一小時的語音數(shù)據(jù)在一個傳統(tǒng)處理器上進行智能應(yīng)用處理,需要一萬小時才能完成,科大訊飛一直在跟蹤人工智能專用芯片的前沿進展。”上海訊飛總裁程甦介紹,寒武紀(jì)的智能處理器在語音智能處理上交出了優(yōu)異的答卷,能耗效率領(lǐng)先競爭對手的云端GPU方案達(dá)5倍以上。它的強大處理能力使得手機本地端可以處理更加復(fù)雜的機器學(xué)習(xí)算法,使得語音本地識別準(zhǔn)確率相對于傳統(tǒng)處理器領(lǐng)先了9.8%,顯著提高了用戶體驗。
中科曙光高級副總裁任京旸在發(fā)布會上同步推出了基于Cambricon MLU100智能處理卡的服務(wù)器產(chǎn)品系列“PHANERON”,它的性能更為強勁,可以支持2—10塊寒武紀(jì)MLU處理卡,靈活應(yīng)對不同的智能應(yīng)用負(fù)載。以升級版的PHANERON-10為例,單臺服務(wù)器可集成10片寒武紀(jì)人工智能處理單元,為人工智能訓(xùn)練應(yīng)用提供832T半精度浮點運算能力,為推理應(yīng)用提供1.66P整數(shù)運算能力,典型場景下的能效提升30倍以上。
“下一步,曙光與寒武紀(jì)之間的合作將不僅僅局限于整機領(lǐng)域,會從頂端科研一直延伸到低端應(yīng)用,合力打造下游應(yīng)用產(chǎn)業(yè),共建人工智能生態(tài)鏈。”任京旸透露,中科曙光還將發(fā)布人工智能管理平臺SothisAI,與寒武紀(jì)的芯片及開發(fā)環(huán)境實現(xiàn)無縫對接和深度融合。