“做通義聽悟的初心不是做宣傳做引流,或者造一波聲勢,而是希望借助技術(shù)能力能讓AI產(chǎn)生真實(shí)的價(jià)值,通過更多的AI助手,真正幫助工作生活等日常的方方面面。”阿里云CTO周靖人在近日的阿里云峰會上對搜狐科技等媒體表示。
周靖人認(rèn)為,大模型將帶來新的機(jī)會,各種APP、業(yè)務(wù)場景及業(yè)務(wù)系統(tǒng)都可以基于大模型重新做,而通義聽悟就是一款大模型應(yīng)用,可以真正把大模型的能力變成工作學(xué)習(xí)的AI助手。
至于為什么要選擇音視頻賽道做這款產(chǎn)品,通義聽悟技術(shù)負(fù)責(zé)人鄢志杰解釋稱,通義聽悟的前身是聽悟,此前主要做語音記錄等,只是一款工具。“當(dāng)我們第一次看到大模型能夠提取摘要能力的時(shí)候,覺得這就是game-changer,它在客觀指標(biāo)和主觀體驗(yàn)上都帶來明顯的提升。”
因此鄢志杰認(rèn)為,當(dāng)大模型的能力跟工具相結(jié)合以后,很有可能它已經(jīng)不再是工具,而是變成了智能助手,不僅是幫助用戶,還可能提供建議來激發(fā)、啟發(fā)用戶。
據(jù)介紹,通義聽悟是一款聚焦在音視頻領(lǐng)域的產(chǎn)品,能夠幫助用戶高效完成對音視頻內(nèi)容的轉(zhuǎn)寫、翻譯、檢索、摘要和整理,適用于開會、上課、訪談、培訓(xùn)、面試、直播、看視頻、聽播客等場景,已自6月1日起開啟公測。
搜狐科技實(shí)測顯示,通義聽悟的音頻轉(zhuǎn)寫速度比市面上部分產(chǎn)品較快,對于轉(zhuǎn)寫記錄能自動(dòng)生成關(guān)鍵詞、摘要、章節(jié)速覽和發(fā)言人總結(jié),但生成內(nèi)容也會有錯(cuò)別字、不準(zhǔn)確等瑕疵,英文提煉能力也相對較弱。此外,該產(chǎn)品還與阿里云盤打通,生成PPT、chorme插件等功能也將在后續(xù)上線。
在商業(yè)化方面,聽悟除個(gè)人版本外,還將推出企業(yè)版。“企業(yè)版是為企業(yè)的場景所定制,每個(gè)企業(yè)有不同的需求,也有數(shù)據(jù)安全、數(shù)據(jù)隱私等要求,這方面會有完整的企業(yè)級產(chǎn)品系列。”周靖人表示。
他還介紹稱,目前聽悟企業(yè)版已在阿里集團(tuán)內(nèi)部使用,釘釘?shù)摹?strong>釘閃記”背后也集成了聽悟,后續(xù)也將在夸克APP、阿里云盤等端口提供服務(wù)。對于企業(yè)用戶擔(dān)心的潛在的數(shù)據(jù)安全和隱私的問題,周靖人表示,大模型技術(shù)并不代表損失隱私,更多是提高了開發(fā)的效率。
“在智能化時(shí)代,所有的企業(yè)都站在同一起跑線,誰能更有效利用好模型,就能更好跟自己的業(yè)務(wù)場景有機(jī)結(jié)合,這樣的企業(yè)就會脫穎而出,更加敏捷、更加地快速探索出一條業(yè)務(wù)發(fā)展創(chuàng)新的道路,從而在新的時(shí)代占據(jù)有利位置。”周靖人表示。
隨著大模型的蓬勃興起,阿里云提出了模型即服務(wù)(MaaS)的云服務(wù)模式,但這也導(dǎo)致和SaaS之間的界限越來越模糊。
對此,周靖人表示,通義聽悟即屬于MaaS,但歡迎它被各種各樣的業(yè)務(wù)系統(tǒng)集成,集成進(jìn)更多智能化服務(wù)中,最終打造基于業(yè)務(wù)場景的SaaS服務(wù)。
他判斷,模型即服務(wù)將變成行業(yè)標(biāo)準(zhǔn)。“通過一系列基礎(chǔ)模型,把創(chuàng)新的能力用在上層的二次開發(fā),甚至根據(jù)技術(shù)模型以及業(yè)務(wù)場景來做一系列的創(chuàng)新。”
周靖人還透露,阿里云在持續(xù)進(jìn)行大模型的研發(fā)投入的同時(shí),也會做基于大模型一系列產(chǎn)品的創(chuàng)新。除了聽悟,接下來還會推出其它更多的產(chǎn)品。
“我們希望務(wù)實(shí)地把技術(shù)真正做到普惠,通過技術(shù)創(chuàng)新不斷降低模型訓(xùn)練和模型服務(wù)的成本,能夠讓大家快速使用起來,更多在云上進(jìn)行創(chuàng)新,只有這樣能夠讓大模型真正意義上大規(guī)模地去服務(wù)全社會。”周靖人表示。