看不懂生成式AI時代的商業化前路?對大模型訓練和部署成本感到困擾?來,聽聽54位產學研投大咖的回答。
爆!爆!爆!好火爆的一場AI主題盛會。
智東西4月19日報道,為期兩天的2024中國生成式AI大會,今日在京圓滿收官。
54位產學研投嘉賓代表全程干貨爆棚,報名咨詢人數逾5200人,超過1800位觀眾到場參會,線上觀看人次更是超過850萬。
參會觀眾們的熱情溢滿了1230平方米主會場,連分會場收費制的具身智能、AI智能體技術研討會和免費開放的中國智算中心創新論壇都座無虛席,展區附近交流討論聲此起彼伏。
▲中國智算中心創新論壇座無虛席,連追加兩排座椅,還有不少觀眾站著聽會
還有多個“行業首發”:會上,2024「AI生產力創新先鋒(AiiP)-中國生成式AI企業TOP50」正式揭曉,李未可科技發布面向眼鏡等未來終端定向優化的自研WAKE-AI多模態大模型,58同城宣布其大語言模型平臺今晚將上線Llama 3。
▲智一科技聯合創始人、智車芯產媒矩陣總編輯張國仁公布年度榜單
大會以“重構世界 奔赴未來”為主題,聚集54位產學研投嘉賓代表同臺共探生成式AI全產業鏈的發展現狀與未來趨勢,為業界把握時代脈搏提供原創性、高質量的洞見參考。
清華大學計算機NLP實驗室是國內開展NLP研究最早、深具影響力的科研單位。清華NLP實驗室的學術帶頭人——歐洲人文和自然科學院外籍院士、清華大學人工智能研究院常務副院長孫茂松教授,為生成式AI大會作開場報告。孫茂松分享道,通用人工智能已開始登上歷史舞臺,生成式AI會開啟人類全新的創造模式。原來的創作往往是從人類創造的現實空間出發,現在機器創造了更大的現實可能空間,使人們能通過鑒賞選擇和修改提升進行創作。
當前生成式AI的基本定位是啟發、輔助人類,不會取代人類,因為其均屬于概率式方法范式,兼具創造與幻覺一枚硬幣的兩面,難以精確操控。生成式AI面臨的近期挑戰,一是走向多智能體,需要讓模型在盡量減少人為干預的情況下完成某些任務更加“靠譜”,二是走向具身智能,其中的關鍵難點是如何有效建立可計算的世界模型。
▲歐洲人文和自然科學院外籍院士、清華大學人工智能研究院常務副院長孫茂松
國內資深大模型行業投資人,“清華系”、“北大系”、“前大廠高管”等光環加身的明星創業者,國內外頂級AI大廠的資深算法專家,三大國內頭部AI研究機構的科學家與青年學者,最懂AI基礎設施的大廠與創企嘉賓代表,異軍突起的爆款AIGC應用先行者,他們悉數而來。
大會首日,25位嘉賓暢談大語言模型、視頻生成、具身智能、音樂生成、世界模型、垂類行業大模型、AI全棧軟件、加速大模型端側部署等前沿議題。(生成式AI大會沸騰北京!從Sora到具身智能,25位大佬密集輸干貨)
今日,來自生成式AI前線的學術代表、商業領袖、技術專家、青年學者們,繼續分享對關鍵技術創新、全棧軟件及智算基礎設施升級、AI應用落地探索實踐、可持續商業模式的趨勢洞察。其中多位嘉賓cue到了昨夜新鮮登場的Llama 3。
01.
AI Infra專場:攻克這些“基建”挑戰,
才能通往高階AGI
頂尖大模型的強大性能,不止有賴于技術研發實力,還需要扎實的工程功底。底層算力基礎設施和AI軟件基礎設施的升級,都在加速大模型訓練與部署的過程中發揮了關鍵作用。
開源大模型領導者Meta最新發布的開源力作Llama 3 8B和70B,再度例證攻克“基建”難關何其重要。據Meta披露,兩款模型是同體量中最好的開源模型,Llama 3 400B還在訓練中;Llama 3用兩個定制24K GPU集群進行訓練,訓練數據量逾15T tokens,比Llama 2的7倍還多。
▲Meta研究團隊在4月15日評估了預訓練和Instruct版中經過部分訓練的模型,并報告了性能數據
這背后,Meta采用指令微調技術來改善對話效果,并結合了數據并行、模型并行、流水線并行三類并行方式來訓練Llama 3,再加上其他優化策略,綜合訓練效率比Llama 2提高了約3倍。
在大會AI Infra專場,來自潞晨科技、NVIDIA、星環科技、中科加禾、天津大學&派歐云、阿里云、焱融科技、Zenlayer的嘉賓代表,分享了類Sora開源架構、大模型全棧AI解決方案、應用開發工具鏈、編譯器、分布式算力網絡、高效存儲等方向的技術、挑戰與策略。
新加坡國立大學校長青年教授、潞晨科技創始人兼董事長尤洋談到模型訓練流程開源的重要性,包括模型架構、模型權重、訓練細節、數據處理等。正如Meta最新發布Llama 3,其超過4000億個參數的版本開源后,將造福大量開發者。
面向視頻生成領域,他認為現在正處于“GPT-2時刻”,還沒有出現成熟的應用。尤洋帶領團隊開源的全球首個類Sora架構視頻生成模型Open-Sora采用STDiT架構,相比DiT成本大幅降低。Open-Sora未來的發展方向主要是完善數據處理流程以及訓練視頻壓縮Encoder。
▲新加坡國立大學校長青年教授、潞晨科技創始人兼董事長尤洋
NVIDIA解決方案架構與工程總監王淼談到大語言模型生態系統四大趨勢,一是新基礎大語言模型發布提速,最新代表便是Meta剛發布的Llama 3,二是新算子和定制技術持續優化,三是模型規模繼續增加,四是從Dense到MoE轉變趨勢形成。這意味著需要全棧AI解決方案助力模型開發和應用部署。
NVIDIA如何搭建大語言模型基礎設施?王淼分享說,NVIDIA為GPU增加的FP8支持相比FP16、BF16實現2倍吞吐性能提升,同時進一步將數據精度縮減到FP4并勝任推理任務。他還分享了NVIDIA在網絡基礎設施上的布局,包括融合標準以太網連接和專業高性能架構的NVIDIA Spectrum-X以太網平臺、助攻大語言模型應用落地全流程的NVIDIA NeMo、NVIDIA Triton推理服務器等。
▲NVIDIA解決方案架構與工程總監王淼
星環科技大模型產品負責人童欣欣談道,當下大模型幻覺問題凸顯,通用的大模型難以解決特定場景的問題。企業內部落地大模型應用時,可通過組合提示詞工程、檢索增強、智能體、有監督微調及預訓練等不同方式,來解決垂直場景的業務問題。他還表示大模型及應用開發和落地不是一錘子買賣,需要企業級別的長期運維和監控。
Sophon LLMOps是星環科技推出的企業級大模型和應用開發工具鏈,提供語料知識精細化處理入庫、提示詞開發、語料數據標注、大模型微調訓練、大模型評估部署到大模型應用構建和應用部署上線的全鏈路工具能力。此外,星環科技還推出大模型和應用開發服務一體機,通過預裝Sophon LLMOps工具平臺,用戶可按需快速的體驗大模型開發和應用的全流程能力。
▲星環科技大模型產品負責人童欣欣
中科加禾創始人、CEO崔慧敏談道,在AI芯片落地過程中,關鍵是要構建整個基礎軟件的能力,從而增強可持續發展能力。正如CUDA成就了英偉達,軟件生態成為AI基礎設施的標準和競爭優勢,決定了芯片的可用性和市場接受度。
崔慧敏強調了跨平臺編譯技術的重要性,對標CUDA層次,能跨多種芯片的底層編譯工具是解決國產芯片長期可持續的重要基礎能力。中科加禾利用編譯技術構建的大模型推理引擎可以實現一套軟件對多種AI加速卡的支持。
▲中科加禾創始人、CEO崔慧敏
天津大學計算機科學與技術學院教授、PPIO派歐云首席科學家王曉飛分享了三個AGI時代的思考:首先,計算與算力供需長尾化且分布不均;其次,計算任務和需求是否完美匹配、能否精準調度;第三,“核心+邊緣”分層協同的算力網絡計算范式及算力經濟。
基于上述思考,他認為要搭建AGI Infra,分布式算力網絡是云邊端協同計算基礎設施的收斂形態。PPIO推出的“派歐算力云”覆蓋全國數千個分布式算力節點,通過智能調度和推理加速技術,可以實現算力性價比提升數十倍,推理成本大幅度降低。
▲天津大學計算機科學與技術學院教授、PPIO派歐云首席科學家王曉飛
阿里云高級技術專家、阿里云異構計算AI推理團隊負責人李鵬談道,大模型的發展給計算體系結構帶來了功耗墻、內存墻和通訊墻等多重挑戰。其中,大模型訓練層面,用戶在模型裝載、模型并行、通信等環節面臨各種現實問題;在大模型推理層面,用戶在顯存、帶寬、量化上面臨性能瓶頸。
對于如何進一步釋放云上性能?阿里云彈性計算為云上客戶提供了ECS GPU DeepGPU增強工具包,幫助用戶在云上高效地構建AI訓練和AI推理基礎設施,從而提高算力利用效率。目前,阿里云ECS DeepGPU已經幫助眾多客戶實現性能的大幅提升。其中,LLM微調訓練場景下性能最高可提升80%,Stable Difussion推理場景下性能最高可提升60%。
▲阿里云高級技術專家、阿里云異構計算AI推理團隊負責人李鵬
焱融科技CTO張文濤解讀了存儲對大模型訓練和推理的重要性,從數據加載、協議、模型加載到Checkpoint保存等,過程中存在大量小的讀寫請求、GPU傳輸等。對于多模態大模型,高性能存儲對訓練的提升效果更好,效率可提升20-40%。
針對訓練推理,焱融科技推出了多云存儲解決方案,基于統一的數據湖底座,通過數據編排將數據按需加載到數據中心,并異步將新增的模型數據推到數據湖。數據加載支持對接OSS、COS、BOS等各大主流對象存儲平臺。
▲焱融科技CTO張文濤
Zenlayer行業拓展總監陳秀忠談道,通往更高級AGI的挑戰在于更即時的交互、更廣的數據、更廣的算力。因此,面向AGI的全球邊緣云方案需要考慮支持實時交互的全球網絡、數據本地存儲和全球流動、大量的邊緣節點。
專線對中國企業在海外部署關鍵應用十分重要。陳秀忠稱,安全合規的跨境專線是企業連接全球的第一跳。Zenlayer通過邊緣數據中心服務,可為企業提供定制化的機房托管和托管主機解決方案。
▲Zenlayer行業拓展總監陳秀忠
02.
AIGC應用專場:核心問題是高質量數據,
3D生成今年將實現真正可用
過去一年,中國生成式AI產業出現很多代表性的商業化探索成果。在手機、互聯網、影視、音樂、游戲、金融、電商、文娛、教育、工業、自動駕駛、生活服務等應用場景,搜索、辦公、寫作、創意到繪畫、修圖、視頻編輯、3D建模等AI提效工具如雨后春筍般蓬勃而生。
探索視頻生成和世界模型的極佳科技,用AIGC賦能影視行業的天圖萬境,將3D生成帶入秒級時代的VAST,為生活服務打造垂類大模型的58同城,提供決策式AI和生成式AI相輔相成技術方案的百融云創,打造游戲行業一站式AI賦能平臺的行者AI,提供全鏈路電商內容生成引擎的極睿科技,用AIGC降低音樂制作門檻的靈動音DeepMusic,均在今天下午的AIGC應用專場進行分享。
極佳科技創始人兼CEO黃冠認為,當下所有“通用智能”都在走向“端到端大模型”,一切問題都變成了“高質量數據”問題。“世界模型”是未來具身智能最重要的“高質量數據”來源,它結合互聯網數據、仿真數據、遙操數據、真實采集數據等多種數據,學習、訓練、組合,從而得到交互式物理世界模擬器。 極佳科技正基于世界模型打造新一代數據平臺,面向端到端自動駕駛和通用機器人提供服務。極佳科技DriveDreamer自動駕駛世界模型、WorldDreamer通用世界模型目前已成功商業化落地。
▲極佳科技創始人兼CEO黃冠
天圖萬境創始人圖拉古認為,AI應該是能夠給人們帶來溫暖、彌合世界的創作工具,而不是取代人工作的的“內卷武器”。因此AI不能離開應用談技術,而是要建立到應用端的完整產業鏈。天圖萬境從AI文本創作,到視頻生成,再到服務用戶的應用端,打造了全產業鏈技術解決方案,且都早于國際巨頭發布了對應產品,目前正在快速迭代中。
其展示的聲音生成工具Sora Opera,可以自動感知、智能識別視頻畫面中的物理邏輯,精準配出風格多變的音樂音效,為視頻增加聲音的魅力。還有聲音克隆工具SoundMax,它不走傳統TTS路線,而是將輸入的人聲轉換成其他聲線。這樣的人工智能工具,不會讓配音演員失業,而是讓他們在演繹不同角色時插上飛翔的創意翅膀。
▲天圖萬境創始人圖拉古
從文字、圖片到視頻、3D,信息載體不斷升級,VAST創始人兼CEO宋亞宸談道,3D的體驗質量、信息密度不斷提升且更具互動性。他認為目前3D生成已經達到類似Midjourney V3的效果,今年9月將達到類V4效果,年底達到類V5效果,實現真正可用。
為了應對3D生成創作成本和門檻過高的挑戰,VAST將3D內容平臺和大眾級創作者平臺結合。VAST的3D大模型Tripo已實現模型生成數量超150萬個。
▲VAST創始人兼CEO宋亞宸
58同城TEG-AI Lab大語言模型算法部負責人孫啟明認為,通用大模型+提示不會代替一切,應用方需要結合自身業務場景,微調出自己的大模型。58同城構建了模型領先、敏捷易用的AI平臺,助力AI應用在內部各業務線快速落地。
58同城搭建了一套支持大語言模型訓練、推理的平臺,集成開源通用大模型,今晚將上線Meta最新推出的Llama 3模型。基于大語言模型平臺,58同城已推出了垂類大語言模型靈犀大模型(ChatLing),相比官方開源大模型實現了更好效果。
▲58同城TEG-AI Lab大語言模型算法部負責人孫啟明
百融云創AI創新負責人談道,生成式AI是AGI的先導,其與決策式AI最大的區別在于問題空間的擴大。傳統模型提供的優化候選集合約為數千個。而Llama 2提供詞表中包含3.2萬個選項,對信息的壓縮比達到14倍;剛剛發布的Llama 3候選詞表擴充超過了12萬個,對信息的壓縮比也提升到30倍以上。
面向金融行業,百融云創開發了百融大模型一站式應用開發平臺,針對信息安全、復雜溝通等需求構建了BR-Coder編程助手、數字員工和交互式數字人Web-Copilot等應用。
▲百融云創AI創新負責人分享生成式AI是AGI的先導
行者AI創始人&CEO尹學淵認為,此前AI輔助內容創作在快、好、便宜之間的“不可能三角”,被生成式AI打破了,并為教育、文旅行業開啟了交互式、沉浸式新體驗。
在他看來,大模型走向落地時,“最后一公里”需要結合具體行業、具體領域工作流,一致、可控、高精度是工業化AI成為工具必不可少的特性。而行者AI的解決方案可以將產品策劃、美術總監等用戶的工作效率提升3-5倍。
▲行者AI創始人&CEO尹學淵
極睿科技創始人兼CEO武彬談道,當下電商行業圖文和短視頻的內容數量與需求都在大幅上升,內容關聯著平臺、賣家與買家的核心交易訴求,但內容制作效率嚴重不足。
成立于2017年的極睿科技專注于打造電商內容生成引擎,推出了ECGPT+FashionCLIP基座模型及多種電商垂直大模型,可支持商品AI拍攝、AI排版上新、AI直播切片、AI生成商品短視頻、AI帶貨、一站式AI技術與數據服務平臺、智能商品操作系統等多種功能,目前已合作超4萬電商客戶。
▲極睿科技創始人兼CEO武彬
DeepMusic CEO劉曉光分享說,當前的音樂商業格局,主要面向泛音樂愛好者的聽歌及淺度實踐用戶的唱歌消費體驗,而中間有1億以上活躍的音樂人、音樂實踐者群體,其需求尚未得到好的產品滿足;同時音樂制作流程長、門檻高,這使得音樂AIGC技術有用武之地。
對此,DeepMusic構建了跨平臺一站式AI音樂工作站“和弦派”,以更直觀的音樂知識呈現、編輯形式,解決音樂中歌詞、旋律、伴奏等不同模態之間溝通困難的問題,覆蓋音樂創作、制作多個流程;未來DeepMusic也會通過積累的精細化標注數據數據,實現對音頻模型的精細化控制。
▲DeepMusic CEO劉曉光
除了上述嘉賓外,另有7位嘉賓在分會場的中國智算中心創新論壇進行分享,6位嘉賓在分會場收費制的智猩猩AI智能體技術研討會上輸出干貨。
智東西后續將整理中國智算中心創新論壇的精華報道,以及部分嘉賓的演講干貨,敬請關注。
03.
結語:下一站,上海見!
“我們正站在歷史的轉折處,見證和參與由生成式AI引領的新一輪科技變革。”智一科技聯合創始人、CEO龔倫常代表主辦方為大會致辭。過去一年,生成式AI狂飆突進,整個產業鏈成為全球創新、投資和應用最活躍的領域之一,每位參與者都在與時間賽跑。作為智能產業的長期觀察者,我們期待見證并記錄中國生成式AI浪潮之變,并將持續邀請這股浪潮中的生力軍們,分享他們最新的技術進展與商業化探索。今日,為期兩天的2024中國生成式AI大會·北京站圓滿收官。半年后的11月份,我們將在上海,為中國生成式AI產業再辦一場秋日盛會。除此之外,智一科技旗下AI與硬科技知識分享社區智猩猩()將聯合智能汽車產業新媒體車東西、芯片產業新媒體芯東西,6月在上海舉行中國智能汽車算力峰會,9月在深圳舉行第六屆全球AI芯片峰會,12月在深圳舉行第四屆全球自動駕駛峰會。歡迎參會交流。