亚洲v欧美v另类v综合v日韩v,好看的黄色片,这里只有精品免费视频,特级做a爱片久久久久久

面向大模型訓練,騰訊云發布新一代高性能計算集群
作者 | 物聯網智庫2023-04-14

國內性能最強的大模型計算集群,來了!

4月14日,騰訊云正式發布面向大模型訓練的新一代HCC(High-Performance Computing Cluster)高性能計算集群。該集群采用最新一代騰訊云星星海自研服務器,搭載了NVIDIA H800 Tensor Core GPU,并提供業界目前最高的3.2T超高互聯帶寬。

實測結果顯示,騰訊云新一代集群的算力性能較前代提升高達3倍。

去年10月,騰訊完成首個萬億參數的AI大模型——混元NLP大模型訓練。在同等數據集下,將訓練時間由50天縮短到11天。如果基于新一代集群,訓練時間將進一步縮短至4天。

圖片1

大模型進入萬億參數時代,對算力的需求陡增。在單體服務器計算能力有限的情況下,需要將上千臺服務器相連,打造大規模、分布式的高性能計算集群。騰訊云新一代集群通過對單機算力、網絡架構和存儲性能進行協同優化,能夠為大模型訓練提供高性能、高帶寬、低延遲的智算能力支撐。

計算層面,服務器的單機性能是集群算力的基礎。在非稀疏規格情況下,新一代集群單GPU卡支持輸出最高 495 TFlops(TF32)、989 TFlops (FP16/BF16)、1979 TFlops(FP8)的算力。針對大模型訓練場景,騰訊云星星海服務器采用6U超高密度設計,相較行業可支持的上架密度提高30%;利用并行計算理念,通過CPU和GPU節點的一體化設計,將單點算力性能提升至最強。

圖片2

網絡層面,計算節點間存在海量的數據交互需求,隨著集群規模擴大,通信性能會直接影響訓練效率。騰訊自研的星脈網絡,為新一代集群帶來了業界最高的3.2T的超高通信帶寬。節點內外統一的AllReduce通信帶寬,實現網絡和算力的最大協同。實測結果顯示,搭載同樣的GPU,最新的3.2T星脈網絡相較1.6T網絡,能讓集群整體算力提升20%。

 

圖片3

圖片4

基于多軌道聚合的無阻塞網絡架構、主動擁塞控制和定制加速通信庫,騰訊云能提供業界領先的集群構建能力,支持單集群高達十萬卡級別的組網規模。在超大集群場景下,仍然能保持優秀的通信開銷比和吞吐性能,滿足大模型訓練以及推理業務的橫向擴展。

同時,騰訊自研高性能集合通信庫TCCL,基于星脈網絡硬件平臺深度優化,在全局路徑規劃、拓撲感知親和性調度、網絡故障實時告警/自愈等方面融入了定制設計的解決方案。相對業界開源集合通信庫,為大模型訓練優化40%負載性能,消除多個網絡原因導致訓練中斷問題。

存儲層面,訓練場景下,幾千臺計算節點會同時讀取一批數據集,需要盡可能縮短數據集的加載時長。新一代集群,引入了騰訊云最新自研存儲架構,支持不同場景下對存儲的需求。

COS+GooseFS對象存儲方案,提供多層緩存加速,大幅提升端到端的數據讀取性能;將公開數據集、訓練數據、模型結果統一存儲到對象存儲COS中,實現數據統一存儲和高效流轉。同時,GooseFS按需將熱數據緩存到GPU內存和本地盤中,利用數據本地性提供高性能訪問。

圖片5

CFS Turbo高性能并行文件存儲方案,采取多級緩存加速,基于全分布式架構,提供100GB/s帶寬、1000萬IOPS的極致性能。并通過持久化客戶端緩存技術,將裸金屬服務器本地NVMe SSD和Turbo文件系統構成統一命名空間,實現微秒級延時,解決大模型場景大數據量、高帶寬、低延時的訴求。同時,通過智能分層技術,自動對冷熱數據分層,節省80%的存儲成本,提供極致的性價比。

圖片6

底層架構之上,針對大模型訓練場景,新一代集群集成了騰訊云自研的TACO Train訓練加速引擎,對網絡協議、通信策略、AI框架、模型編譯進行大量系統級優化,大幅節約訓練調優和算力成本。

騰訊混元大模型背后的訓練框架AngelPTM,也已通過騰訊云對外提供服務,幫助企業加速大模型落地。目前,騰訊混元AI大模型已經覆蓋了自然語言處理、計算機視覺、多模態等基礎模型和眾多行業、領域模型。

在騰訊云上,企業基于TI 平臺的大模型能力和工具箱,可結合產業場景數據進行精調訓練,提升生產效率,快速創建和部署 AI 應用。

圖片7

此前,騰訊多款自研芯片已經量產。其中,用于AI推理的紫霄芯片、用于視頻轉碼的滄海芯片已在騰訊內部交付使用,性能指標和綜合性價比顯著優于業界。其中,紫霄采用自研存算架構,增加片上內存容量并使用更先進的內存技術,消除訪存能力不足制約芯片性能的問題,同時內置集成騰訊自研加速模塊,減少與CPU握手等待時間。目前,紫霄已經在騰訊頭部業務規模部署,提供高達3倍的計算加速性能,和超過45%的整體成本節省。

目前,騰訊云的分布式云原生調度總規模超過1.5億核,并提供16 EFLOPS(每秒1600億億次浮點運算)的智算算力。未來,新一代集群不僅能服務于大模型訓練,還將在自動駕駛、科學計算、自然語言處理等場景中充分應用。

以新一代集群為標志,基于自研芯片、星星海自研服務器和分布式云操作系統遨馳,騰訊云正通過軟硬一體的方式,打造面向AIGC的高性能智算網絡,持續加速全社會云上創新。

熱門文章
4月13日,山東省自然資源廳組織專家在壽光市就“壽光市智慧城市時空大數據平臺建設省級試點項目”進行驗收。在驗收現場,專家組聽取了試點工作匯報和技術匯報,觀看了系統演示,審閱了相關文檔資料,經質詢和討論
2023-04-14
X
主站蜘蛛池模板: 五月婷婷伊人| 边添边躁边扒边做免费视频| 很黄很污小说| 国产小嫩模好紧| 欧美激情视频在线观看免费| 免费羞羞视频网站| 一级毛片免费观看| 国产视频二| 噜噜噜精品欧美成人AV| 一级a爱片免费视频观看| www.精品在线| 国产一级a一级a免费视频| 久久精品国产高潮AVM3u8| 嗯啊轻一点(h)| 国产精品自拍视频| 精品国产乱码久久久久久软件| 国精品无码A区一区二区| 亚洲香蕉久久综合网| 精品??码产区一区二| 精品久久久久久国产免费了| 男女秘?无遮挡視頻视频在线| 大学情侣吃奶12秒视频| xxxxtube69性中国| 国产午夜精品视频| 女主被各种调教H文NP| 色欲AV精品亚洲AV高清色飘香| KTV洗手间活春官视频| 美女扒了内裤让男人桶爽网站软件 | 67194XXⅩ欧美色| 想被他操小说| bl文全肉高hnp| 日本处xxx19| 欧美激情视频一区二区三区 | 欧美人七十二式性视频教程一| 啊不要啊| 欧美影院一区| 91??丨PORNY丨中文| 湿热下注| 中文乱码在线视频| 好吊色视频7777gao·com| 久久久久久精品国产三级下乡 |