正如大家所看到的一樣,近年來自研芯片已經(jīng)成為了很多系統(tǒng)廠商的必經(jīng)之路。面對這個(gè)趨勢,有從業(yè)者就曾經(jīng)表達(dá)過,研發(fā)出一個(gè)芯片只證明了他們在芯片設(shè)計(jì)方面組件了一個(gè)靠譜的團(tuán)隊(duì),如果能夠?qū)⑵渎涞貞?yīng)用,這才是自研芯片的最終目標(biāo)。這也是過去幾年里不少AI芯片創(chuàng)業(yè)者被詬病的一個(gè)原因。
但對于用于豐富應(yīng)用場景的阿里巴巴來說,這似乎不是一個(gè)事。
在去年舉辦的云棲大會上,這家本土互聯(lián)網(wǎng)巨頭就推出了旗下首款A(yù)rm服務(wù)器芯片倚天710.憑借其領(lǐng)先的規(guī)格和卓越的實(shí)力,這顆芯片從面世開始就吸引了海內(nèi)外從業(yè)人員的目光。大家也對其進(jìn)展高度關(guān)注。時(shí)隔一年,在日前舉辦的2022云棲大會上,阿里云智能總裁張建鋒對外宣布,公司自研的CPU倚天710已大規(guī)模部署應(yīng)用,這是中國首個(gè)云上大規(guī)模應(yīng)用的自研CPU。
自2018年成立平頭哥半導(dǎo)體以來,這家全球領(lǐng)先的云巨頭和電商巨頭在芯片領(lǐng)域?qū)覄?chuàng)佳績,倚天710的部署落地則成為了他們芯片領(lǐng)域短暫發(fā)展歷程中的又一個(gè)里程碑。
自研芯片,發(fā)展的必然選擇
從整個(gè)互聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展,尤其是對于像阿里巴巴這樣的既有巨大流量需求的電商業(yè)務(wù),也有多樣化公有云服務(wù)的供應(yīng)商來說,自研芯片是產(chǎn)業(yè)發(fā)展的必然選擇。這首先能夠幫助降低成本支出和達(dá)成“雙碳”目標(biāo)。
以倚天710為代表的Arm服務(wù)器芯片為例。眾所周知,自X86架構(gòu)一統(tǒng)了服務(wù)器芯片江湖以來,英特爾在過去多年里幾近成為了這個(gè)市場的唯一供應(yīng)商。在這種形勢下,購買者在議價(jià)能力方面的表現(xiàn)就可想而知。雖然AMD在最近幾年也開始在服務(wù)器芯片市場給了英特爾一些壓力,但迅速崛起的Arm和服務(wù)越來越好的臺積電讓服務(wù)器廠商有了新的選擇。于是包括阿里巴巴、亞馬遜和微軟在內(nèi)的云巨頭都把目光投向了Arm CPU的研發(fā)。
因?yàn)閾?jù)相關(guān)分析顯示,在某些云應(yīng)用上使用Arm CPU不但能夠節(jié)省成本,還能節(jié)省功耗。這對于需要海量服務(wù)器部署的廠商來說,無疑是一個(gè)巨大利好。
回到阿里平頭哥的首顆CPU芯片倚天710。
據(jù)介紹,該芯片針對云場景研發(fā),同時(shí)兼顧了性能與易用性。而經(jīng)過一年的業(yè)務(wù)驗(yàn)證,倚天710已大規(guī)模部署并提供云上服務(wù)。倚天710云實(shí)例與飛天操作系統(tǒng)及CIPU融合,在數(shù)據(jù)庫、大數(shù)據(jù)、視頻編解碼、AI推理等核心場景中的性價(jià)比提升超30%;阿里云提供豐富的生態(tài)工具,支持全應(yīng)用生態(tài)適配,0代碼修改即可完成主流業(yè)務(wù)遷移。
阿里巴巴方面也指出,倚天710云實(shí)例已應(yīng)用于阿里巴巴集團(tuán)核心業(yè)務(wù),并服務(wù)科學(xué)研究、智能手機(jī)行業(yè)和多家知名互聯(lián)網(wǎng)公司。根據(jù)阿里方面提供的數(shù)據(jù),2021年雙11期間,天貓雙11核心交易系統(tǒng)平滑遷移至倚天710云實(shí)例,算力性價(jià)比提升30%;匯量科技廣告推理業(yè)務(wù)使用倚天710云實(shí)例,性能和網(wǎng)絡(luò)帶寬雙雙提升,性價(jià)比提升40%以上。
借助一顆自研芯片,提升了公司系統(tǒng)的解決能力,這并不是阿里巴巴首創(chuàng)的。但對于這家國內(nèi)的云計(jì)算巨頭來說,這是他們過去十幾年里高瞻遠(yuǎn)矚的必然結(jié)果。
早在2007年,阿里巴巴正值業(yè)務(wù)高速發(fā)展階段。彼時(shí)的淘寶網(wǎng)用戶體量急劇增長,尤其是脈沖流量帶來了極大的不確定性,而公司業(yè)務(wù)底層的IOE(IBM小型機(jī)、Oracle數(shù)據(jù)庫、EMC存儲)技術(shù)架構(gòu)捉襟見肘。再者,因?yàn)楫?dāng)時(shí)國內(nèi)依然沒有自己的算力系統(tǒng),IOE架構(gòu)下的設(shè)備加軟件是標(biāo)配方案,解決業(yè)務(wù)算力不足的問題幾乎只有擴(kuò)大采購規(guī)模這一條路。
面對這個(gè)局面,阿里做出了一個(gè)讓當(dāng)時(shí)的人“匪夷所思”的決定——用高云計(jì)算來為龐大的業(yè)務(wù)搭建一套全新的技術(shù)架構(gòu)。阿里巴巴也順勢在2009年啟動(dòng)了飛天操作系統(tǒng)的研發(fā),并成立了阿里云,拉開了中國企業(yè)自研云計(jì)算的序幕。據(jù)介紹,飛天操作系統(tǒng)用分布式架構(gòu)替換了傳統(tǒng)集中式架構(gòu),其目標(biāo)就是將遍布在全世界的服務(wù)器連接在一起。而為了實(shí)現(xiàn)這個(gè)目標(biāo),阿里云開發(fā)完成了自有大規(guī)模部署系統(tǒng)和異常故障自動(dòng)化處理系統(tǒng)等,大幅提升了對集群的全局掌控力,在全球范圍內(nèi)首次實(shí)現(xiàn)單一集群5000臺服務(wù)器的規(guī)模。
擁有了云計(jì)算,讓阿里巴巴獲得算力能力的效率大幅度提升。但隨之而來的虛擬化損耗問題又讓阿里迎來了新的挑戰(zhàn)。他們也采取了一個(gè)在當(dāng)時(shí)看來相對激進(jìn)的路線來解決這個(gè)歷史遺留難題——用軟硬結(jié)合的思路來解決虛擬化的損耗。這推動(dòng)了阿里云神龍架構(gòu)的產(chǎn)生。阿里巴巴方面表示,這個(gè)架構(gòu)兼具虛擬機(jī)的彈性和物理機(jī)的高性能兩大優(yōu)點(diǎn),以軟硬結(jié)合的設(shè)計(jì)方式實(shí)現(xiàn)了性能的0損耗,首次讓云計(jì)算的算力潛力徹底釋放。
歷經(jīng)系統(tǒng)和應(yīng)用的改革以后,云服務(wù)商繼續(xù)往技術(shù)深水區(qū)走去,于是自研芯片,自定義硬件,用全新的芯片、服務(wù)器、交換機(jī)等硬件體系來為云上企業(yè)提供更有競爭力的算力服務(wù)就成為了業(yè)界潮流。這也促成了達(dá)摩院在2017年的建立以及平頭哥半導(dǎo)體的橫空出世。倚天710正是平頭哥半導(dǎo)體的研究成果。
除了這個(gè)芯片以外,阿里巴巴之前還發(fā)布了針對AI場景深度定制的芯片含光800。與此同時(shí),阿里巴巴的神龍計(jì)算平臺經(jīng)過多輪迭代,已成長為一個(gè)全新的管控和加速中心,名為CIPU,它打破了以CPU為中心的傳統(tǒng)云計(jì)算架構(gòu),向下對數(shù)據(jù)中心的計(jì)算、存儲和網(wǎng)絡(luò)資源快速云化并進(jìn)行硬件加速,向上接入操作系統(tǒng)。
在2022云棲大會,阿里云首次展現(xiàn)了倚天710和CIPU、飛天操作系統(tǒng)完美協(xié)同的成果,倚天710成為中國首個(gè)云上大規(guī)模應(yīng)用的自研CPU。基于倚天710的云服務(wù)在數(shù)據(jù)庫、大數(shù)據(jù)、視頻編解碼、Web服務(wù)器等核心場景中的性價(jià)比最高提升80%,單位算力功耗(耗電量)降低60%以上。阿里巴巴同時(shí)表示,未來2年,阿里云20%的新增算力將使用自研CPU,這給公司帶來的降本增效顯而易見。
過去十三年,阿里云在操作系統(tǒng)、數(shù)據(jù)庫、存儲、網(wǎng)絡(luò)和芯片等技術(shù)領(lǐng)域持續(xù)深耕并取得一系列重要成果,是國內(nèi)唯一一家擁有完整自研軟硬件技術(shù)體系的云服務(wù)商。但在阿里巴巴看來,這并不是產(chǎn)業(yè)的最終形態(tài)。
持續(xù)創(chuàng)新,搶占定義權(quán)
回顧云計(jì)算產(chǎn)業(yè)過去多年的多年的發(fā)展,講過行業(yè)從業(yè)人員的勵(lì)精圖治。原生長在云平臺之上的應(yīng)用不斷涌現(xiàn),全面上云逐漸成為企業(yè)的核心戰(zhàn)略。與此同時(shí),云計(jì)算也從第一個(gè)十年的由規(guī)模驅(qū)動(dòng)軟件技術(shù)發(fā)展轉(zhuǎn)向進(jìn)入新的階段。
“未來十年,軟硬件一體化的自研計(jì)算體系是云服務(wù)商的立身之本,只有在核心技術(shù)和產(chǎn)品的研發(fā)上持續(xù)創(chuàng)新才能搶占定義權(quán)。”阿里云智能總裁張建鋒也強(qiáng)調(diào)。而從阿里巴巴看來,去IOE之后沿用下來的算力體系正在迎來新一輪的變革,AWS、阿里云等主流云廠商率先啟動(dòng)了新型硬件和芯片的研發(fā)。
在底層計(jì)算體系結(jié)構(gòu)上,阿里巴巴展開了新型計(jì)算范式的探索。2021年12月,阿里巴巴達(dá)摩院成功研發(fā)全球首款基于DRAM的3D鍵合堆疊存算一體芯片。用存算一體芯片攻克傳統(tǒng)馮·諾依曼架構(gòu)存儲計(jì)算分離的性能瓶頸,從而打造一個(gè)新型計(jì)算體系結(jié)構(gòu)。而這一成果有望為未來AI場景提供更高效率的算力。
在端云一體芯片體系整體策略中,阿里巴巴也將戰(zhàn)線聚焦,確定了以RISC-V處理器IP作為核心攻克方向。得益于平頭哥團(tuán)隊(duì)在處理器IP上的深厚積累,早在2019年7月,平頭哥就發(fā)布當(dāng)時(shí)業(yè)界最強(qiáng)性能RISC-V處理器玄鐵910,這一產(chǎn)品成為業(yè)界基于RISC-V架構(gòu)打造高性能芯片的風(fēng)向標(biāo),讓RISC-V成為5G、人工智能、網(wǎng)絡(luò)通信、自動(dòng)駕駛等新興領(lǐng)域的新選擇。
在端側(cè)算力的攻堅(jiān)中,阿里也在不斷推動(dòng)生態(tài)的發(fā)展。作為RISC-V基金會董事會成員,領(lǐng)導(dǎo)了11個(gè)重要技術(shù)方向,成為全球RISC-V技術(shù)與生態(tài)發(fā)展的引領(lǐng)者。2021年以來,平頭哥持續(xù)推動(dòng)RISC-V與安卓的深度融合,極大拓寬了RISC-V架構(gòu)的生態(tài)想象力。平頭哥在玄鐵C910上成功兼容安卓10.0系統(tǒng)并運(yùn)行Chrome瀏覽器。
面向更長遠(yuǎn)的計(jì)算需求,阿里還在持續(xù)布局量子計(jì)算,努力顛覆傳統(tǒng)計(jì)算的潛力。2018年5月,阿里發(fā)布業(yè)界最強(qiáng)量子電路模擬器“太章”,利用阿里巴巴集團(tuán)計(jì)算平臺的算力,模擬了谷歌當(dāng)時(shí)“量子霸權(quán)”計(jì)劃的電路,重新定義了“量子霸權(quán)”的界限;2022年3月,基于新型超導(dǎo)量子比特fluxonium,量子實(shí)驗(yàn)室成功設(shè)計(jì)并制造出兩比特量子芯片,實(shí)現(xiàn)了單比特操控精度99.97%,兩比特iSWAP門操控精度最高達(dá)99.72%,取得此類比特全球最佳水平。
除了在硬件方面大力推進(jìn)以外,阿里巴巴在軟件方面的投入也不遺余力。而他們在這方面投入是基于公司看到的軟件研發(fā)范式的顛覆式變化。
張建鋒認(rèn)為,軟件研發(fā)范式的變革有三個(gè)層次,第一是新興的軟件開發(fā)方式崛起,軟件架構(gòu)全面Serverless化;第二是軟件開發(fā)不再是程序員的專利,低代碼讓未來80%應(yīng)用能夠由業(yè)務(wù)人員直接開發(fā);第三是未來所有軟件都是AI化的,大模型開源將加速AI真正普及。
其中,Serverless將讓云計(jì)算從一種資源真正變成一種能力。張建鋒表示,過去云計(jì)算用云服務(wù)器替代了物理服務(wù)器,但客戶依舊按“幾核幾G服務(wù)器”的模式來購買云資源,未來云計(jì)算將全面Serverless化,更加接近“電網(wǎng)”模式,按計(jì)算的調(diào)用次數(shù)付費(fèi)。
這將帶來軟件開發(fā)方式的深刻變化,軟件架構(gòu)從原來的主機(jī)架構(gòu)遷移到Serverless架構(gòu),客戶只需要開發(fā)業(yè)務(wù)邏輯,不再需要關(guān)心運(yùn)維問題。此外,Serverless架構(gòu)可以降低軟件開發(fā)門檻,提供更多的預(yù)制模塊,大幅提高軟件生產(chǎn)效率。
其次,低代碼將進(jìn)一步降低應(yīng)用開發(fā)門檻,張建鋒認(rèn)為,未來80%的應(yīng)用將由業(yè)務(wù)人員開發(fā),不懂低代碼就和20年前不會用word一樣。數(shù)據(jù)顯示,釘釘上,兩年新增了500多萬個(gè)低代碼應(yīng)用,聚集了380余萬低代碼開發(fā)者。
最后,越來越多的軟件將AI化,大模型開源將推動(dòng)AI真正普及。張建鋒表示,開源是軟件進(jìn)步的核心推動(dòng)力量,過去開源推動(dòng)了軟件架構(gòu)的進(jìn)步,未來開源還將推動(dòng)AI應(yīng)用的進(jìn)步和普及。為此,阿里達(dá)摩院聯(lián)手CCF開源發(fā)展委員會共同推出AI模型社區(qū)“魔搭”ModelScope,旨在降低AI的應(yīng)用門檻。達(dá)摩院率先向魔搭社區(qū)貢獻(xiàn)300多個(gè)經(jīng)過驗(yàn)證的優(yōu)質(zhì)AI模型,超過1/3為中文模型,全面開源開放,并且把模型變?yōu)橹苯涌捎玫姆?wù)。
“近十年來,AI的研究發(fā)展迅猛,但AI的應(yīng)用始終是一大難題,使用門檻過高限制了AI的潛能。”阿里巴巴集團(tuán)資深副總裁、達(dá)摩院副院長周靖人表示。在他看來,AI模型較為復(fù)雜,尤其是要應(yīng)用于行業(yè)場景,往往需要重新訓(xùn)練,這使得AI只掌握在少數(shù)算法人員手中,難以走向大眾化。而新推出的魔搭社區(qū)ModelScope,踐行模型即服務(wù)的新理念(Model as a Service),提供眾多預(yù)訓(xùn)練基礎(chǔ)模型,只需針對具體場景再稍作調(diào)優(yōu),就能快速投入使用。
綜上所述,阿里巴巴正在力爭成為每個(gè)時(shí)代的技術(shù)弄潮兒。
寫在最后
中國信通院在日前于長沙發(fā)布的《云計(jì)算白皮書》中指出,當(dāng)前,云服務(wù)作為通用算力已成為賦能企業(yè)業(yè)務(wù)單元轉(zhuǎn)型的關(guān)鍵,但隨著企業(yè)數(shù)字化程度不斷加深和數(shù)字應(yīng)用日益多樣,用戶對算力種類數(shù)量、有效感知、高效利用等提出了更高的要求,云服務(wù)也逐漸向算力服務(wù)演進(jìn)。白皮書還強(qiáng)調(diào),云計(jì)算能夠屏蔽不同硬件架構(gòu)(CPU、GPU、FPGA)的差異,輸出不同類型的服務(wù)(常規(guī)計(jì)算、智能計(jì)算、邊緣計(jì)算),實(shí)現(xiàn)大規(guī)模異構(gòu)計(jì)算資源的統(tǒng)一輸出,更加普適性地滿足不同量級或不同硬件架構(gòu)下的算力需求,實(shí)現(xiàn)算力的普惠化。
這些無感化體驗(yàn),正是阿里巴巴在云計(jì)算底層技術(shù)方面進(jìn)行多面賦能,并能夠穩(wěn)坐國內(nèi)公有云供應(yīng)商龍頭位置的底氣。