自研芯片會是改變云計算游戲規則的關鍵么?亞馬遜云科技認為的確如此。
在2021年亞馬遜云科技re:Invent全球大會上,亞馬遜云科技公布了其最新芯片研究成果,包括自研CPU處理器Amazon Graviton3,這是亞馬遜云科技自研設計的第三顆CPU處理器。
同時,繼去年宣布研制機器學習訓練芯片Amazon Trainium后,亞馬遜云科技于今年宣布提供基于Trainium的實例。與P4d實例相比,由Amazon Trainium芯片支持的Trn1實例訓練深度學習模型的成本降低多達40%。
在固態硬盤層面,基于Amazon Nitro SSD固態硬盤的Im4gn/Is4gen/ I4i實例也正式發布。通過自研的 Amazon Nitro SSD,Im4gn/Is4gen/I4i實例提供高達 30 TB 的 NVMe 存儲,與上一代I3實例相比,I/O 延遲降低了 60%,延遲可變性降低了 75%。
云計算發展十余年來,正在變得越來越硬,直至底層芯片。同開創云時代一樣,自研芯片的風潮很大程度上也是由亞馬遜云科技開始,國內外云廠商不斷跟進,例如阿里云自研CPU倚天710、AI推理芯片含光800等,騰訊云的AI推理芯片“紫霄”等。
自研芯片并不是云廠商開展業務的必需,但卻決定了云廠商的天花板,象征著云巨頭的身份。
亞馬遜云科技大中華區產品部總經理顧凡
對于自研芯片的驅動力,亞馬遜云科技大中華區產品部總經理顧凡是這樣解釋的,“客戶對云上性價比的追求永遠不會有止境,同時,未來云上的新型工作負載對于計算創新的要求也是無止境的。而發生在底層的創新,往往最具備顛覆性。半導體和芯片層面的創新會是改變云計算游戲規則一個非常重要的能力。”
自研芯片比之云服務更具挑戰,即使是亞馬遜云科技,也在自研芯片的過程中也面臨諸多權衡的選擇。
提高頻率or增加內核數量?
Graviton3相較于Graviton2多出200億個晶體管,如何利用這200億個晶體管,來實現最佳的性能和效率,是亞馬遜在這一代芯片中要深入思考的問題。
亞馬遜云科技大中華區產品部計算與存儲總監周舸說道,“原則很簡單,我們得從工作負載去看,從客戶真正怎么使用這些設備去看,找到我們的起點。”
通常提升CPU性能的兩個方向,提高頻率或者增加內核數量,提高頻率確實可以快速提升性能,而且大多數時候這種性能提升對所有的工作負載都有效。
但提高頻率有局限性,以現在半導體的功率和能力,提高頻率意味著產生更多的熱量,散熱會是一個大問題,尤其是在超大規模數據中心里,高頻帶來高能耗,高能耗帶來高熱量,高熱量要求更高的散熱效率,反而提升了耗電量,企業用云成本不降反升。
因此亞馬遜云科技選擇讓內核的“寬度”增加,即使用指令并行的方式,讓內核在同一個時鐘周期里執行更多的指令、完成更多的任務,這樣不用增加內核數量也能提高業務運行效率。
根據亞馬遜云科技給出的數據,由Amazon Graviton3處理器支持的C7g實例與由 Graviton2 處理器支持的當前一代 C6g 實例相比,可將計算密集型工作負載性能提高多達25%。Amazon Graviton3處理器與Graviton2相比,為科學計算、機器學習和媒體編碼工作負載提供高達2倍的浮點運算性能,為加密工作負載速度提升高達2倍,為機器學習工作負載提供高達3倍的性能。
增加核數or降低內存時延
如前所述,增加核數也是提高芯片性能快且有效的辦法,Graviton從第一代到第二代,亞馬遜云科技就選擇增加核數,實現了不錯的效果。
新的選擇題出現,亞馬遜云科技是將剩下的晶體管繼續增加更多的核,還是去增加CPU內存的帶寬和降低它的延遲?
“到了第三代的時候,我們研究在Graviton2上運行的工作負載,發現有大量工作負載是大數據類型,大量是微服務架構的,甚至一些HPC的服務等,這些服務對內存的帶寬和延時的敏感度非常高,我們的判斷是——在內存下工夫,會比增加核數的效果更好。”周舸表示。
C7g實例是云中第一個采用最新DDR5內存的實例,與基于Amazon Graviton2的實例相比,它提高了50%的內存帶寬,從而提高了科學計算等內存密集型應用的性能。
與基于Amazon Graviton2的實例相比,C7g實例的網絡帶寬也高出20%。C7g 實例支持 Elastic Fabric Adapter (EFA),允許應用程序直接與網絡接口卡通信,提供更低且更一致的延遲,提高需要大規模并行處理(如高性能計算和視頻編碼)的應用程序的性能。
客戶的反饋也說明了這一點,Twitter部分業務性能提升20%到80%;F1流體仿真在Graviton2的基礎上提升40%。
與此同時,通過增加內存帶寬和降低內存時延的方法,Graviton3的功耗降低了60%,保持了更好的能效比,企業客戶無需付出很高的成本代價,也能獲得性能的提升。
“亞馬遜云科技是云廠商里面最早做自研芯片的,今天我們擁有Nitro、Graviton、人工智能機器學習自研芯片三條產品線,自研芯片需要經驗積累,并不是花錢就能買來的,亞馬遜云科技從對云上所有客戶工作負載的深刻理解,逆向工作設計芯片,是我們在重構云計算底座自研芯片里面的最大優勢。”顧凡表示。