亚洲v欧美v另类v综合v日韩v,好看的黄色片,这里只有精品免费视频,特级做a爱片久久久久久

英特爾推出7nm中國版Gaudi2!訓練大模型性價比超A100
作者 | 芯東西2023-07-18

英特爾面向中國市場發布可便捷擴展運行大語言模型的云端AI訓練芯片Gaudi2新品,并公布面向中國市場的英特爾AI戰略。

在中國市場推出的Gaudi2 AI加速器,將通過其合作伙伴浪潮提供給中國客戶。浪潮信息高級副總裁、AI和HPC總經理劉軍現場發布搭載Gaudi2的新一代AI服務器NF5698G7。

會后,英特爾執行副總裁、數據中心與人工智能事業部總經理Sandra L. Rivera,英特爾旗下Habana Labs的首席運營官Eitan Medina,英特爾數據中心與人工智能集團副總裁兼中國區總經理陳葆立接受了芯東西等媒體的采訪。

陳葆立說,英特爾過去6個月在軟件優化上做了很多工作,此次不僅是向中國市場帶來芯片,而且帶來了可以大規模部署、訓練和推理大模型的整體方案。英特爾對方案的成熟度非常有信心。

據介紹,此次英特爾發布的Gaudi2新品是中國特供產品,在出口和支持中國客戶方面沒有任何問題。相比國際版Gaudi2產品,面向中國市場推出的加速卡在性能上差別不大,集成以太網端口數量從24個端口減到21個。Gaudi2及下一代Gaudi3都會在合法合規的情況下繼續支持中國客戶。

據Eitan Medina介紹,英特爾Gaudi2運行ResNet-50的每瓦性能約是英偉達A100的2倍,運行1760億參數BLOOMZ模型的每瓦性能約達A100的1.6倍。

Sandra L. Rivera談道,英特爾致力于為中國客戶不斷創造更高價值,通過異構產品組合,交付具有性價比的AI解決方案。英特爾中國成立于1985年,中國員工數量超過1.1萬人,截至2022年總投資額超過130億美元,中國市場營收約占英特爾全球營收的27%。

據她分享,部署AI需要異構芯片,集成高級矩陣擴展(AMX)的第四代英特爾至強可擴展處理器,能實現比A100更快的訓練和推理性能。

英特爾現場演示了在第四代至強可擴展處理器上通過AMX加速指令運行文生圖模型Stable Diffusion,用5.34秒就生成一張圖片。

一、專供中國的Gaudi2新品:規格符合出口規定,支持大規模橫向擴展

Gaudi2處理器是一款高性能、完全可編程的AI處理器,整合了多項技術創新,具有高內存帶寬/容量和基于標準以太網技術的縱向擴展能力,并支持使用外接網卡通過PCle接口實現橫向擴展,可滿足多節點集群需要。

該訓練處理器基于與第一代Gaudi相同的高效架構,采用7nm制程工藝,在性能、可擴展性和能效方面均實現了飛躍,其性價比相較于AWS云中基于英偉達的解決方案高出40%。

它利用Habana完全可編程的TPC和的TPC和GEMM引擎,支持FP8、BF16、FP16、TF32和FP32等數據類型。TPC核心旨在支持深度學習訓練和推理工作負載。TPC是一款VLIW SIMD矢量處理器,其指令集和硬件經過定制,可高效處理上述工作負載。

第二代Gaudi2 AI深度學習夾層卡HL-225B專為數據中心實現大規模橫向擴展而設計。HL-225B處理器符合美國工業與安全局(BIS)的有關規定。該夾層卡符合OCP OAM1.1(開放計算平臺之開放加速器模塊)規范。因此客戶可從符合規范的多種產品中做出選擇,靈活地進行系統設計。

HL-225B夾層卡內置Gaudi HL-2080處理器技術。HL-2080處理器擁有24個完全可編程的第四代張量處理器核心(TPC)。這些核心原生設計能為廣泛的深度學習工作負載加速,同時還賦予用戶按需進行優化和創新的靈活性。

該處理器還集成了96GB HBM2e內存和48MB SRAM,支持600瓦夾層卡級熱設計功耗(TDP)。Gaudi Al訓練處理器在芯片上集成了RDMA(RoCEv2),可與成熟且廣泛使用的以太網進行連接。HL-2080芯片互連技術基于42對56Gbps Tx/RxPAM4 SerDes(配置為21個100 GbE端口)發揮作用。

中國專供版Gaudi2處理器具備出色的2.1Tbps網絡容量可擴展性,原生集成21個100Gbps RoCE v2 RDMA端口,可通過直接路由實現Gaudi處理器間通信。該處理器還集成了用于圖像和視頻解碼及預處理的專用媒體處理器。

二、訓練GPT-3實現近線性95%擴展性,FP8版Gaudi2性價比將超H100

業內普遍認為生成式AI和大語言模型僅適宜在GPU上運行。英特爾顯然正努力用Habana Labs的AI芯片打破這種“刻板印象”。

截至2023年6月,英特爾Gaudi2和英偉達H100是僅有的兩個提交了AI性能基準測試MLPerf GPT-3模型訓練成績的半導體解決方案。根據最新MLPerf結果,384個Gaudi2加速器訓練GPT-3的時長為311分鐘。

在GPT-3模型上,從256個到384個加速器實現近線性95%的擴展效果。這種出色擴展性部分歸功于其芯片上集成的100GB以太網端口以及96GB HBM2e內存。

Gaudi2在四種主流計算機視覺以及自然語言處理模型的基準測試中亦優于英偉達A100。在計算機視覺模型ResNet-50(8個加速器)和Unet3D(8個加速器)以及自然語言處理模型BERT(8個和64個加速器)上取得了優異的訓練結果。與去年11月提交的數據相比,BERT和ResNet模型的性能分別提高了10%和4%,證明Gaudi2軟件成熟度的提升。

Gaudi2支持“開箱即用”功能。其客戶在本地或在云端使用Gaudi2時,可以獲得與本次測試相當的性能結果。本次MLPerf 3.0的Gaudi2結果以BF16數據類型已提交。英特爾預計在2023年第三季度發布對FP8的軟件支持與新功能時,屆時Gaudi2的性價比預計將超越H100。

Gaudi2加速器已經被知名AI和機器學習開源軟件工具提供商Hugging Face采用。

根據Hugging Face發布的對Gaudi2性能的測試結果,從預訓練BERT模型到Stable Diffusion、1760億參數大型開源聊天模型BLOOMZ的推理,Gaudi2均領先于英偉達A100 GPU。與英偉達A100相比,2.44倍調優3B參數T5語言模型;與英偉達A100相比,Stable Diffusion推理時延顯著降低。

結語:為中國市場提供有競爭力的AI訓練加速選擇

訓練生成式AI和大語言模型需要服務器集群來滿足大規模且更加復雜的計算要求。英特爾正通過多元化硬件和軟件產品技術組合,來將各種AI負載的推理和訓練性能提升至新的水平。

隨著Gaudi2產品進入中國市場,憑借在AI訓練方面經權威基準測試驗證的高性價比,英特爾將為尋求擺脫效率與規模限制的中國客戶提供又一有競爭力的AI加速方案選擇。

熱門文章
7月18日消息,根據 The Elec 報道,三星已經和日企名幸電子株式會社(MEIKO)達成合作,共同推進智能戒指項目。
2023-07-18
X
主站蜘蛛池模板: 《情欲电车》无删减版| 99re热久久资源最新获取| 一级黄色免费片| 欧美乱码熟妇色精精品| 精品国产第一区二区三区的应用特点| 羞耻电影在线观看| 啦啦啦啦日本电影网免费| 大胆女婿在线观看电视剧免费| 免费无码又爽又刺激片软件| 青青在线视频免费观看| 攻略男神的n种方式| 胸片曝光软件2025更新视频| 免费女女乱婬视频在线观看 | 狠狠综合久久AV一区二区三区| 国产乱了真实在线观看| 亂伦wwwhd老女人| 欧美黑大粗硬毛片免费视频A片| 日本一区二区三区在线看| 亚洲欧美一区二区三区情侣| 老头巨大粗长xxxxx| 色噜噜亚洲男人的天堂| 好硬好大18??男自慰免费看| 久久久久久精品无码Av少妇| 视频网站免费观看| 97精品一区二区三区在线不卡| 国产一级a爱做片免费☆观看| 国产亚洲欧美ai在线看片| 国产毛片一区二区三区| 国产精品女A片爽视频爽| 国产TS另类高潮91| 大色综合色综合网站| 日本a一级| 免费无码国产精品一区| 催眠侵犯の奶水授乳羞羞漫画 | 国产婷婷色综合成人精品| 亚洲欧美综合国产精品一区| 靠逼下载软件| 影音先锋色成人资源网站| www.黄色免费网站| 美女脱全身内衣内裤| 一本大道一卡二卡入口2021|