物聯網數據作為現代社會產生的數據主力,加上未來物聯網智能“社交”方面的場景,將為AIGC以及大模型提供用武之地。雖然目前還沒有物聯網與AIGC結合的應用出現,但未來不可避免。
2022年11月,美國人工智能公司Open AI推出ChatGPT的對話模型,迅速風靡全球,并快速迭代,在不到4個月后推出了能力更強大的GPT-4,近日又推出了聯網和第三方應用插件功能,不斷刷新生成式人工智能(AIGC)帶來的變革,對于AIGC的行業應用也成為人們探討的熱點話題。
近年來,人工智能與物聯網深度融合,使AIoT成為共識,大量人工智能企業都將物聯網作為其應用的重點,AIGC如何應用于物聯網自然成為業界探索的方向。雖然目前還沒有雙方結合的應用出現,但未來不可避免。物聯網數據作為現代社會產生的數據主力,加上未來物聯網智能“社交”方面的場景,都將為AIGC以及大模型提供用武之地。
物聯網數據的“投喂”,AIGC擁有了新鮮的養料
眾所周知,AIGC是算力、算法、數據三位一體的成果,其中包括大量的數據學習和訓練。以ChatGPT為例,該模型是由龐大數據集訓練而成,OpenAI曾透露,ChatGPT的訓練使用了45TB的數據、近1萬億個單詞的文本內容,大概是1351萬本牛津詞典所包含的單詞數量。隨著AIGC應用端不斷豐富,更智能的工具需要更多的數據進行訓練,更多的數據來源就比較重要。
此前,多位計算機科學家曾預測,到2026年ChatGPT等大型語言模型的訓練就將耗盡互聯網上的可用文本數據,屆時將沒有新的訓練數據可供使用。業界提出了采用“合成數據”進行訓練,即運用計算機模擬生成的人造數據,模擬現實世界的觀察與觀測,是一種應對訓練、測試、驗證AI模型和算法的手段。
通過物聯網涵蓋的海量傳感器、機器設備的數據,或許也能在一定程度上解決AIGC模型訓練所需的數據來源。
首先,物聯網數據規模足夠大,有超越互聯網數據之勢。根據知名咨詢機構IDC的研究,2020年全球創造了大約64ZB的數據,而到2025年,全球數據總量將達到163ZB,這五年內產生的數據將是自1947年引入數字儲存量概念以來創建數據總量的兩倍多。同時,IDC預測,到2025年,物聯網設備生成的數據量預計將達到73.1ZB,已達到全球數據總量44%。其中智能攝像頭、智能汽車等強算力、大帶寬終端產生的數據尤為驚人,例如,一輛智能網聯汽車每天就可能收集10TB的數據。
物聯網數據規模還體現在不斷增長的物聯網設備上。當前互聯網用戶數量已增長乏力,很多互聯網發達的國家和地區,用戶數已達到天花板,數據的增長主要通過對互聯網存量用戶的經營。物聯網用戶沒有天花板,還在持續增長,到2025年,全球每分鐘將有超過15萬臺物聯網設備連接入網。海量的物聯網連接,未來產生的數據量可能超過互聯網,可以給人工智能模型持續輸入“養料”去訓練。
其次,物聯網數據的鮮明特點,為人工智能帶來新鮮養料。相對于互聯網,由于物聯網數據是物理實體產生的數據,具有鮮明的客觀性,且大部分場景主要目的是用于生產經營,因此實用性也更高。物聯網所產生的數據既有標簽、傳感器感知的設備靜態數據,也有設備運行中產生的時間序列動態數據。在數據類型方面,物聯網技術能夠實現對物理世界的狀態數據、定位數據、行為數據等采集,獲得各行業能源、資產屬性、診斷類數據和信號類數據,這些數據對于各行業核心的生產經營和智能化升級意義重大。
在這些特殊數據的“投喂”下,AIGC模型或許能夠更深入地學習各行業具體場景知識,輸出更精準的信息,為行業經營者和物聯網用戶參考,并進一步驅動應用創新,加速產業數字化升級的步伐,例如大幅提高預測性維護、供應鏈協同的效率,簡化人們與智能家居、智能硬件交互的方式。可以說,AIGC能夠成為物聯網應用的重要助手。
近日,Open AI發布了ChatGPT的插件功能,允許ChatGPT和其他第三方應用程序的聯通,首批應用插件的包括旅行軟件、購物軟件、支付平臺、在線訂餐平臺、電商平臺、工作軟件等方面十余家合作方。在筆者看來,未來不排除ChatGPT的插件功能與車聯網平臺、智能家居平臺甚至工業互聯網平臺應用的聯通。在此模式推動下,物聯網應用將與AIGC形成融合,物聯網數據投喂和AIGC對物聯網應用協助的潛力進一步釋放。
“社交”物聯網設備進化,以邊緣計算提供定制化AIGC服務
上文所述的AIGC作為物聯網應用的助手,還是聚焦于用戶和經營者對物聯網場景的管理,是人與物之間的互動。正如當前大部分物聯網設備允許用戶通過API的形式訪問數據,并形成相應的服務,這種形式下物聯網設備并不具備自主性。
隨著物聯網智能化的提升,“社交”物聯網設備不斷發展,尤其是物聯網設備具備更多“社會性”,各類物能夠在一定程度上自我進化,甚至與其他物聯網設備之間自主進行“社交”。市場研究機構IoT Analytics近期發布的一份AIGC研究報告中,提出了AIGC可以從多個方面提升自主“社交”能力,即:
允許設備回答用戶可能會提出的復雜問題;
允許終端用戶與設備對話以改變設置;
允許設備本身使用AIGC來生成答案。
這一設想已經逐漸變為現實,尤其是一些機構探索機器人使用AIGC大模型,在機器人得不到清晰的指令時,能夠與用戶進行互動并完成與其他設備的協同。
例如,亞馬遜開發了一個名為DialFRED的模型框架,允許機器在不確定的情況下向用戶提問。亞馬遜認為此前的很多只能設備通常只允許單向通信,人類用戶向智能設備發出自然語言命令,智能設備只能被動地遵循命令。
圖源:亞馬遜
亞馬遜推出的DialFRED的模型框架是支持對話的嵌入式指令集,允許智能設備主動向用戶提問,智能設備可使用用戶響應中的附加信息來更好地完成任務。為了訓練DialFRED,亞馬遜提出了一個提問者-執行者的交互式框架,其中提問者用人類標注的數據進行預訓練,并用強化學習進行微調。
亞馬遜的DialFRED可以說是AIGC推動“社交”物聯網設備的一個實例,相信隨著全球AIGC生態的發展,針對提升“社交”物聯網能力的模型和技術會不斷出現,推動更加智能的物聯網應用落地。
由于AIGC賦能物聯網應用場景需要模型能夠更進一步下沉到各行業,因此已有不少針對AIGC進一步下沉的研究。筆者注意到,今年年初由新加坡南洋理工大學、電子科技大學、廣東工業大學等高校研究人員聯合發表的一篇《Enabling AI-Generated Content (AIGC) Services in Wireless Edge Networks》中提出了“AIGC-as-a-service”(AaaS)的概念,認為AIGC 服務提供商可以在邊緣服務器上部署人工智能模型,通過無線網絡向用戶提供即時服務,以及更便利和可定制的體驗,用戶可以低延時和低資源消耗輕松地訪問和享受 AIGC服務。
在這種模式下,AIGC 服務提供商需要首先在大數據集上訓練AIGC模型,然后將其擴散模型托管在邊緣服務器上,服務商需要持續的維護和更新,以確保AIGC模型在生成高質量內容方面保持準確和有效。用戶可以提交內容生成請求,并從供應商租用的邊緣服務器接收生成的內容。
這一模式允許AIGC模型根據用戶的需求進行定制的內容,提供個性化的體驗,而且通過在更接近用戶的地方部署AIGC服務,QoS將得到顯著提高。然而,這一模式對無線網絡帶寬、訓練數據集、算力消耗等都是巨大的挑戰,例如未來移動通信網絡需要5.5G或6G的支持。
若這一模式的瓶頸能夠突破,AaaS將和當前很多服務一樣可以隨用隨取,對于廣泛分散、碎片化但海量連接的物聯網智能化化升級帶來較好支持,在很大程度上提升“社交”物聯網設備的部署。
當然,AIGC在物聯網方面的廣泛應用還非常遠。我們看到,當前大多數AIGC模型主要關注文本和圖像,只有非常少量的模型關注將傳感器數據作為輸入。另外,大量產業物聯網場景中,對于AI能夠給出的解決方案的確定性要求非常高,當前AIGC模型生成的文字或圖片很多情況下是一種“最有可能”的答案,并不一定能夠應用于生成經營場景。
例如,在工業互聯網場景中,生產、質檢等需要近乎100%的確定性答案或輔助;又如,聯網汽車在重要場合下需要反饋完全確定性指令來采取行動。因此,對于關鍵任務型物聯網應用,AIGC或許還需要很長的路要走。
不過,雖然AIGC在物聯網的應用還不明朗,但AI與物聯網深度融合的趨勢已經非常明朗,除了AIGC外,未來AI仍然會有各類新的創新,和物聯網結合來服務千行百業,這才是技術創新的使命。正如華為創始人任正非在近期一次專家座談會上所述,人工智能軟件平臺公司對人類社會的直接貢獻可能不到2%,98%都是對工業社會、農業社會的促進。