近日,云豹智能與燧原科技達成戰(zhàn)略合作,依托雙方各自在DPU (Data Processing Unit) 和AI計算領域的軟硬件優(yōu)勢,聯(lián)合開發(fā)大規(guī)模高性能AI算力平臺,為云端AI計算提供更高效的解決方案。
云豹智能創(chuàng)始人兼CEO 蕭啟陽博士表示:“在數(shù)據(jù)中心領域,DPU正推動著計算基礎架構的變革,以提供更高效的數(shù)據(jù)處理和計算解決方案。DPU與AI加速設備更高效地互通互動,推動AI應用的發(fā)展,讓AI計算更高效、更節(jié)能,這是我們推出DataDirectPath的出發(fā)點。我們相信DataDirectPath相關的技術必將為數(shù)據(jù)中心計算資源池化提供重要的基礎。我們很高興與業(yè)界AI算力領域領先者燧原科技合作,共同為業(yè)界提供創(chuàng)新的DataDirectPath解決方案,為客戶提供更先進的AI解決方案。”
燧原科技創(chuàng)始人兼COO 張亞林表示:“數(shù)據(jù)中心和云計算是國家新基建的算力基礎設施,是企業(yè)數(shù)字化轉(zhuǎn)型的重要保障。在智能數(shù)據(jù)中心的核心業(yè)務中,海量數(shù)據(jù)和計算能力已成為核心關鍵。基于云豹智能和燧原科技在數(shù)據(jù)處理和算力產(chǎn)品的領先優(yōu)勢,將進一步促進數(shù)據(jù)中心的變革。通過創(chuàng)新性的DataDirectPath技術實現(xiàn)AI處理器之間以及AI處理器與存儲之間的直接通信,對于提升AI計算規(guī)模和訓練效率至關重要。我們很高興與DPU頭部廠商云豹智能一起,為業(yè)界帶來領先的大規(guī)模高性能AI算力平臺。”
據(jù)艾瑞預測,2020年,中國人工智能基礎設施市場規(guī)模為497億元,為人工智能產(chǎn)業(yè)總規(guī)模的33%,總體呈現(xiàn)持續(xù)增長的走勢,到2025年,中國人工智能基礎設施市場規(guī)模將達到2475億元。
算力作為人工智能產(chǎn)業(yè)發(fā)展的三大要素之一,AI芯片是其載體。AI芯片作為人工智能產(chǎn)業(yè)的關鍵硬件,是AI加速服務器中用于AI訓練與推理的核心計算引擎,被廣泛應用于人工智能、云計算、數(shù)據(jù)中心、邊緣計算、移動終端等領域。當前,我國的AI芯片行業(yè)仍處于起步階段,市場空間有待探索與開拓。據(jù)艾瑞統(tǒng)計與預測,2020年我國AI芯片市場規(guī)模為197億元,到2025年,我國AI芯片市場規(guī)模將達到1385億元,2021-2025年的相關CAGR達47%,市場整體增速較快。
但對于很多企業(yè)來說,獨立建設自己的AI硬件集群一次性投入和后續(xù)運維的成本非常高,建設周期長且利用率低。而AI算力云化,以按需分配的方式提供AI算力,提高效能的同時,也可以降低成本。因此,AI算力云化是未來AI發(fā)展的趨勢之一。
AI算力云化不僅需要高性能的AI計算能力,也需要高性能的數(shù)據(jù)處理能力,包括AI芯片之間的數(shù)據(jù)通信,AI芯片獲取存儲數(shù)據(jù)等。隨著AI數(shù)據(jù)爆發(fā)式增長,模型迭代速度更快,模型規(guī)模越來越大,數(shù)據(jù)處理能力的要求也越來越高。
AI芯片廠商、GPU廠商、AI算法開發(fā)商都在不斷探索硬件和軟件的解決方案。主流的GPU或AI芯片廠商提供自己私有的解決方案,比如NVIDIA的NVLink、GPUDirect和相應NCCL軟件,但AI市場和用戶期待著一個開放的技術和相應高性能解決方案。
云豹智能作為DPU芯片的領導者,正在積極地幫助業(yè)界解決問題。隨著數(shù)據(jù)中心基礎架構逐漸演進到以DPU為核心,DPU將決定數(shù)據(jù)中心的互聯(lián)互通方式。通過DataDirectPath(數(shù)據(jù)直通技術),DPU將為AI大規(guī)模訓練提供一個更高效的通信方式。
目前,云豹智能與燧原科技達成戰(zhàn)略合作,共同研發(fā)和提供大規(guī)模高性能AI算力平臺解決方案。雙方創(chuàng)新性地提出了DataDirectPath技術:該技術用于高性能分布式數(shù)據(jù)通信,基于DPU的高靈活性和高性能的特點,實現(xiàn)與云燧T20之間以及與存儲之間的高性能直接通信,提升AI訓練效率的同時,也降低了訓練成本。DataDirectPath包括:DataDirectPath RDMA和DataDirectPath Storage。DataDirectPath RDMA用于AI加速芯片之間的數(shù)據(jù)通信,而DataDirectPath Storage用于AI加速芯片與存儲器之間的高速數(shù)據(jù)讀寫。
相對于一些GPU廠商推出的私有解決方案,DataDirectPath具有開放性、高兼容性和高靈活性等特點。
云豹智能與燧原科技合作,基于云豹云霄DPU和燧原科技云燧T20率先推出了DataDirectPath Storage解決方案,為AI訓練儲存訪問提供更高效的解決方案。在傳統(tǒng)解決方案中,云燧T20訪問存儲時,需要將數(shù)據(jù)先搬移到系統(tǒng)內(nèi)存,再由系統(tǒng)內(nèi)存搬移到目標設備。在創(chuàng)新的DataDirectPath Storage解決方案中,基于DataDirectPath Storage技術,云燧T20通過DPU直接獲得數(shù)據(jù),從而繞過系統(tǒng)內(nèi)存和CPU,讓數(shù)據(jù)訪問速度更快,訪問延遲更短,系統(tǒng)開銷更小。DataDirectPath Storage不僅支持數(shù)據(jù)通道的Bypass CPU, 也支持控制通道的Bypass CPU,讓控制路徑也更高效,大大降低CPU的開銷。
DataDirectPath Storage解決方案具有以下優(yōu)勢:
高性能、低延遲、低開銷:DataDirectPath Storage同時支持數(shù)據(jù)通道和控制通道Bypass CPU,降低CPU開銷、提高AI加速芯片訪問性能并降低通信時延,從而幫助用戶構建更大規(guī)模、更高性價比和更高能效的AI計算平臺。
更高兼容性:用戶端文件系統(tǒng)與后端實現(xiàn)解耦,通過DPU兼容多種存儲系統(tǒng)和協(xié)議。
互聯(lián)方案更靈活:DPU和AI加速芯片通信支持多種協(xié)議,包括Virtio、RDMA和NVMe等,從而支持更靈活的互聯(lián)方案。
云豹智能和燧原科技將基于雙方技術優(yōu)勢和技術互補,持續(xù)發(fā)揮協(xié)同作用,為云端AI計算降本增效,為行業(yè)提供更具創(chuàng)新力和價值的應用解決方案,為國內(nèi)芯片行業(yè)發(fā)展進一步夯實大規(guī)模落地基礎。