英特爾公布 AI 大模型 Aurora genAI,具備 1 萬億參數
wccftech 報道,英特爾近日公布了旗下生成式 AI 大模型 Aurora genAI。
據悉,Aurora genAI 參數量高達 1 萬億,其開發依賴于 Megatron 和 DeepSpeed 框架,這些結構增強了模型的強度和容量。而 ChatGPT 模型參數量是 1750 億,這也意味著,Aurora genAI 的參數量是ChatGPT 的近 6 倍。
據悉,Aurora genAI 模型是英特爾是與阿貢國家實驗室和 HPE 合作開發的,它是一個純粹以科學為中心的生成式 AI 模型,將被用于各類科學應用,包括分子和材料設計、乃至涵蓋數百萬來源的綜合知識素材,據此為系統生物學、高分子化學、能源材料、氣候科學和宇宙學等提供值得探索的實驗設計思路。這些模型還將用于加速癌癥及其他疾病的相關生物過程的識別速度,并為藥物設計提供靶點建議。
除了科研之外,Aurora genAI 還具有在自然語言處理、機器翻譯、圖像識別、語音識別、金融建模等商業領域的應用潛力。
阿貢實驗室副主任 Rick Stevens 介紹稱,“這個項目希望充分利用 Aurora 超級計算機的全部潛力,為能源部各實驗室的下游科學研究和其他跨機構合作計劃提供資源。”
根據介紹,Aurora genAI 模型將由生物學、化學、材料科學、物理學、醫學等學科的常規文本、代碼、科學文本和結構化數據訓練而成。阿貢實驗室正帶頭組織國際合作以推進該項目,參與方包括英特爾、HPE、能源部各下轄實驗室、美國及其他國際性高校、非營利組織,以及 RIKEN 等國際合作伙伴。
Aurora genAI 模型將運行在英特爾為阿拉貢國家實驗室開發的 Aurora 超算上,其性能達到了 200 億億次,是當前 TOP500 超算冠軍 Frontier 的 2 倍。近日,英特爾和阿貢國家實驗室還公布了 Aurora 的安裝進度、系統規格和早期性能測試結果:
英特爾已完成 Aurora 超級計算機 1 萬多塊刀片服務器的交付。
Aurora 的完整系統采用 HPE Cray EX 超算架構,將擁有 63744 個 GPU 和 21248 個 CPU,輔以 1024 個 DAOS 存儲節點。Aurora 還將配備 HPE Slingshot 高性能以太網絡。
早期性能結果顯示,Aurora 超算系統在實際科學和工程負載上具有領先性能,性能表現比 AMD MI250 GPU 高出 2 倍,在 QMCPACK 量子力學應用程序上的性能比 H100 提高 20%,且能夠在數百個節點上保持近線性的算力擴展。作為 ChaGPT 的有力競爭者,Aurora genAI 的公布預示著 AI 大模型賽道又迎來了新的重磅玩家,并極有可能在未來對各種科學領域產生重大影響。不過目前,Aurora genAI 更像是處于概念階段,英特爾的目標是到 2024 年完成 Aurora genAI 模型的構建。
對于英特爾的萬億參數 AI 大模型 Aurora genAI,有網友表示:“我不相信僅僅增加參數數量就能改進模型,我認為我們不應該發布新聞稿追逐增加參數數量。我在研究中還發現,較大的模型通常不會表現得更好,但由于不負責任的營銷,這變得越來越難以向非技術人員解釋。如果我們對這些營銷放任不管,我們會讓很多人失望,并降低大家對 AI 未來增長潛力的信心——我們不想要另一個 AI 寒冬。訓練這些大型模型會產生巨大的環境成本,而且理解、使用和控制這些非常大的模型(即使作為研究人員)也變得更加困難。”
AI 軍備競賽進入“萬億參數模型”對抗時代?
近幾年,隨著 AI 大模型賽道持續升溫,越來越多的科技巨頭加入進來,并不斷打破參數規模記錄。
2021 年 1 月,谷歌大腦團隊重磅推出超級語言模型 Switch Transformer,該模型有 1.6 萬億個參數,是當時規模最大的 NLP 模型。同年 6 月,智源研究院發布悟道 2.0,該系統參數數量已超過 1.75 萬億,是當時全球最大的大規模智能模型系統。同年 11 月,阿里達摩院發布多模態大模型 M6,其參數已從萬億躍遷至 10 萬億,是當時全球最大的 AI 預訓練模型。
有分析指出,中美 AI 軍備競賽的核心戰場正是萬億級預訓練模型。打造千萬億參數規模的預訓練模型是人類的一個超級工程,可能會對國家甚至人類社會產生重大影響。
那么,模型參數越大就越好嗎?
鵬城實驗室網絡智能部云計算所副所長相洋曾在接受 InfoQ 采訪時指出:
我們最初見到的一些模型是幾萬個參數,后來就到了幾億、幾十億、百億、千億,還有可能上萬億。目前從事實來說,的確是模型越大數據越多,且質量越好,帶來的性能是越高的。但是我個人認為,這個提升曲線可能會有一個瓶頸期,到了瓶頸或者平臺期的時候,它的上升速度可能就會緩慢,或者說基本就達到穩定了。就目前而言,可能我們還沒有到達平臺期。所以說,“模型參數越大越好”這個說法在一定程度上是成立的。
但是,判斷一個大模型是否優秀,不能只看參數,還要看實際表現。模型得出來的任務效果好,我們就可以認為這個模型是個好模型。參數不是問題,當機器無論是在存儲還是計算能力都足夠強的時候,大模型也可以變成小模型。
此外,還要考慮模型的可解釋能力,以及是否容易受噪聲的攻擊。如果該模型有一定的解釋能力,那這個模型就是一個好模型;如果該模型不易被噪聲數據或是其他因素影響的話,那這個模型也是一個好模型。
本文轉載來源:
https://www.infoq.cn/news/bx7SvZNNgOd63b2hI1yz