阿里云今年最重要策略是“B2B”,也就是“Back to Basic”,回到云計算的本質,堅持在技術的長征路上,不斷取得新的突破。同時,阿里云正式發布自主研發的云基礎設施處理器CIPU,將在未來取代CPU成為新一代云計算的管控和加速中心。
6月13日,阿里云硬件研發又有了最新進展。在2022阿里云峰會上,阿里云正式發布了其自主研發的云基礎設施處理器CIPU(Cloud infrastructure Procrssing Units),作為一款為新型云數據中心設計的專用處理器,它將在未來取代CPU成為新一代云計算的管控和加速中心。
會上,阿里云智能總裁張建鋒表示,阿里云今年最重要策略是“B2B”,也就是“Back to Basic”,回到云計算的本質,堅持在技術的長征路上,不斷取得新的突破。同時,他認為云計算進入了一個關鍵的突破期,“如果我們定義好下一代技術,中國云計算就有超車機會。”
5月26日,阿里發布2022財年業績報表,云業務同比增長23%,全年收入在抵銷跨分部交易前后分別達到1001.8億元和745.67億元,并創下了11.46億元的盈利數據。這是阿里云成立13年以來實現的首次年度盈利,也是阿里云新的歷史性時刻。
遙想當年,從無人看好的業務,到如今一躍成為中國云計算版圖上最耀眼的那顆星,阿里云經歷了13年的隱忍和克制,摸著石頭過河,以飛天云操作系統為核心,自研了芯片、服務器、計算、存儲、網絡、安全等軟硬一體的新型計算體系架構。如今,經過多年的沉淀和積累,阿里云終于有了勇氣,去爭奪云計算下一個階段的定義權。
張建鋒認為,在過去的十多年間,云計算已經經歷了兩個發展階段,從分布式到資源池化,產生了非常多的創新。其中,第一階段是分布式和虛擬化技術替代了大型機,滿足了當時企業所需的算力規模;第二階段出現了資源池化技術,把計算和存儲資源分離,再規模化編排和調度,提供了超大規模的計算和存儲資源池。
這兩個階段的演進推動云計算發展,但它們都是通過軟件定義的方法,基于傳統的以CPU為中心的體系架構去做優化,已經觸及瓶頸。隨著云計算規模的不斷膨脹,大數據應用場景的逐漸增多,云計算整體也面臨了多重挑戰:
首先,計算和網絡傳輸時延大。隨著體系結構越來越分布,一個大型的應用會分散在多個子系統去部署,這些系統之間就需要高速地去互聯;其次,隨著大數據應用的不斷增長,IDC內部的東西向流量越來越大,數據密集型計算也就越來越多;再者,以阿里云為例,其在全球四大洲的27個國家和地區、84個可用區、2800個網絡節點,運營著上百萬臺服務,服務著400多萬客戶,系統規模越來越大、越來越復雜,也造成了超大規模基礎設施的復雜管理問題。
因此張建鋒表示,新一代的云計算要從數據中心的內部做體系化創新,打破以往的以CPU為中心的體系架構,進入以CIPU為中心的體系架構。而CIPU不僅能在以軟件靈活定義整個基礎設施,還能通過硬件加速實現性能大幅提升。
實際上,也并非只有阿里云在此賽道上追逐,比如英偉達在2020年10月發布的DPU(Data Processing Units),側重于解決數據遷移帶寬的問題,能夠從CPU上卸載關鍵的網絡、存儲和安全任務,降低CPU的開銷,一經面世便引發了業界的廣泛熱議。
隨后英特爾也推出了IPU(Infrastructure Processing Units)的概念,強調虛擬化云化能力,通過網絡虛擬化、存儲虛擬化、網絡存儲管理以及安全等功能,加速網絡基礎設施,釋放CPU來提高應用程序性能。可見無論英偉達還是英特爾,都是想要通過軟件定義和硬件加速的方式,替代CPU成為數據中心的核心硬件。
CIPU和CPU表面雖然只是一個“I”的差別,實際上卻是兩個時代的差距。CIPU作為一顆云端專用處理器,主要用于連接服務器內硬件和云上虛擬化資源。底層基礎設施通過插入CIPU,能夠托管在飛天云操作系統中,進而形成云上的統一虛擬資源池,為客戶提供云上算力。
根據阿里云表述,CIPU向下接入物理的計算、存儲、網絡資源,快速云化并進行硬件加速;向上接入飛天云操作系統,管控阿里云全球上百萬臺服務器,讓算力虛擬化損耗降到0,并通過規模化應用RDMA網絡技術,讓訪問云端比訪問本地硬盤更快。從性能上看,實現了計算、存儲和網絡三類資源的極大提升:
CIPU與計算結合:快速接入不同類型資源的服務器,帶來算力的“0”損耗,以及硬件級安全的加固隔離;
CIPU與存儲結合:對存算分離架構的塊存儲接入進行硬件加速,云盤存儲IOPS最高可達300萬,長尾時延降低50%;
CIPU與網絡結合:可對高帶寬物理網絡進行硬件加速,構建大規模彈性RDMA高性能網絡,時延最低可達5us。
更值得一提的是,CIPU作為一顆專門為飛天系統設計的處理器,對于阿里云從最底層的數據中心核心部件到最上層云原生軟件,建立完整的自研技術體系有著重大裨益。同時,借由“飛天+CIPU”的新一代完整的軟硬件云計算架構體系,也使其相比英特爾、英偉達等純硬件廠商更容易展現其優勢。
根據阿里云官方數據,在通用計算、大數據、人工智能等核心場景的計算測試中,該體系展現了優越的性能。具體為:
在通用分布式計算領域,Redis性能提升了68%、MySQL提升了60%,Nginx提升了30%;
高吞吐類的互聯網業務上云之后,比自建物理機的集群吞吐量提升了30%,業務高峰期延遲下降了90%;
在大數據和AI等計算與數據雙密集場景下,相比傳統的TCP網絡,彈性RDMA高性能網絡的吞吐能力提升30%以上;
云原生方面,容器啟動速度快了350%,在Serverless 場景下6秒可拉起3000個彈性容器實例。
張建鋒稱,阿里云核心技術一直走在世界的前列,這個新興體系是技術長征路上的新里程碑,這個新型的技術體系正在定義下一代云計算架構。但我們知道,經歷了13年的淬煉,這不是一朝一夕的苦勞,而是不斷試煉和嘗試。
就像此次發布的CIPU,并非阿里云一時的產物。早在2014年,阿里云就開始對各種智能網卡進行了嘗試,最終它在2017年發布的神龍卡上顯示出了雛形。
從功能上來看,神龍卡類似于AWS發布的一款名為Nitro的平臺,主要用于消除計算虛擬化消耗。經過好幾輪迭代之后神龍卡逐漸加入了編排調度、硬件加速等更多能力,最終為CIPU的誕生定下了基調。如今,CIPU已經在阿里云內部有了較大規模的應用和抗壓測試,為雙十一、阿里集團業務等內部客戶和最新實例提供了支持。
除此之外,在芯片層面,阿里云是全球支持CPU種類最多的云廠商,基于“一云多芯”戰略對X86、ARM、RISC-V等多種架構進行適配,形成標準形態的算力輸出。
去年,阿里云還針對云計算大規模、高并發特性,推出自研CPU芯片倚天710。目前,該處理器已在阿里云數據中心內部規模化部署,并順利支撐2021年雙11等多個核心業務。今年4月,基于倚天710的公共云 ECS實例也已上線邀測。
在網絡層面,阿里云建設了全球最大規模的RDMA分布式高性能網絡,CIPU對高帶寬物理網絡進行硬件加速,實現RDMA技術的普惠化;在存儲層面,CIPU對存算分離架構的塊存儲進行加速,讓云端存儲比本地存儲更快,并擁有極大規模的資源池;在計算層面,通過CIPU把虛擬化開銷降到0,并提供硬件安全隔離功能。
未來或許真的會如張建鋒所言,“云計算越來越接近進入下一個時代——全新的架構定義,全新的軟件界面,硬件加速。我們錯過了PC時代,但云這個時代大家起步是一樣的。現在是重新定義云的窗口期,如果我們定義好了,中國就可以在下一個技術時代有自己的一席之地。”
參考資料:
1.《阿里云張建鋒:Back to Basic,定義下一代的云》,阿里云
2.《阿里云首發CIPU處理器,這次要搶CPU的C位,為OS反向自研》,量子位
3.《剛剛,阿里云亮出殺手锏CIPU,云操作系統的最強搭檔》,智東西