亚洲v欧美v另类v综合v日韩v,好看的黄色片,这里只有精品免费视频,特级做a爱片久久久久久

「虎博科技」發(fā)布自研多模態(tài)大模型TigerBot,開源模型、代碼及數(shù)據(jù) | 36氪首發(fā)
作者 | 36氪2023-06-08

6月7日,虎博科技正式發(fā)布并開源其自研大模型TigerBot。同時(shí),虎博科技還發(fā)布了大模型應(yīng)用開發(fā)所需的全套API,以及多領(lǐng)域?qū)I(yè)數(shù)據(jù)。

虎博科技成立于2017年,是一家專注于深度學(xué)習(xí)及NLP(自然語言處理)技術(shù)的AI公司,36氪曾多次報(bào)道。此前,經(jīng)過多年技術(shù)探索和積累,虎博科技已經(jīng)擁有包括智能搜索、智能推薦、機(jī)器閱讀理解、總結(jié)、翻譯、輿情分析及撰稿在內(nèi)的關(guān)鍵技術(shù),亦有全球各行業(yè)的專業(yè)信息數(shù)據(jù)積累。

2022年11月,OpenAI發(fā)布ChatGPT,掀起了全球的AI大模型科技浪潮,中國(guó)市場(chǎng)也出現(xiàn)了不少團(tuán)隊(duì)自研AI大模型的嘗試,虎博科技也是其中之一。

本次虎博科技所發(fā)布的自研大模型TigerBot,是一個(gè)多語言多任務(wù)大規(guī)模語言模型,經(jīng)歷3個(gè)月的封閉式開發(fā)和超過3000次實(shí)驗(yàn)迭代,當(dāng)前已經(jīng)迭代出第一個(gè)MVP版本。

從功能上,Tigerbot已經(jīng)包含大部分生成和理解類的能力,具體包括幾大部分:

  • 內(nèi)容生成:輔助用戶解決創(chuàng)作類問題,快速生成營(yíng)銷文案、評(píng)論、新聞稿等等。另外,Tigetbot也支持圖片生成——模型可以實(shí)現(xiàn)文生圖,進(jìn)行插圖創(chuàng)作等

圖片生成

  • 開放問答:用戶向Tigerbot提出問題,比如烹飪攻略、長(zhǎng)文本總結(jié)、文本理解、角色對(duì)話、潤(rùn)色等等

開放式問答

  • 提取信息:比如有目的地獲取關(guān)鍵信息、提取數(shù)字、主要內(nèi)容等等

長(zhǎng)文本解讀

在3個(gè)月封閉開發(fā)背后,是一支精干的團(tuán)隊(duì)。虎博科技創(chuàng)始人兼CEO陳燁對(duì)36氪表示,在大模型研發(fā)上,虎博團(tuán)隊(duì)致敬了硅谷經(jīng)典的“車庫(kù)創(chuàng)業(yè)”模式,團(tuán)隊(duì)開始只有5個(gè)人,CEO同時(shí)擔(dān)任首席程序員及首席AI科學(xué)家。

“在大模型的研發(fā)上,我們堅(jiān)信頂尖團(tuán)隊(duì)能起到的作用,團(tuán)隊(duì)規(guī)模不必太大,但技術(shù)需要過硬。在我們從0到1的研發(fā)過程中,我們核心的研發(fā)團(tuán)隊(duì)一直保持在4-5個(gè)人,以及密切合作的研發(fā)狀態(tài)。”陳燁表示。

從模型效果上看,虎博Tigerbot根據(jù)OpenAI InstructGPT論文的公開 NLP數(shù)據(jù)集上進(jìn)行評(píng)測(cè),TigerBot-7B對(duì)應(yīng)OpenAI同等規(guī)模的6B版本,其綜合表現(xiàn)能夠達(dá)到OpenAI效果的96%。

以O(shè)penAI-instruct GPT-6B-SFT為基準(zhǔn),歸一化并平均各模型的得分情況 來源:虎博科技

在過去三個(gè)月中,虎博科技主要基于GPT和BLOOM兩個(gè)開源模型基礎(chǔ)上,在模型架構(gòu)和算法側(cè)做了一系列優(yōu)化。陳燁對(duì)36氪表示,虎博科技在技術(shù)突破上,主要集中在原創(chuàng)的監(jiān)督和微調(diào)方法上。“從整個(gè)技術(shù)角度來說,監(jiān)督微調(diào)的方法是大模型這件事的核心,能夠影響模型效果的七到八成。”

比如,大模型浪潮來臨后,困擾業(yè)界的一個(gè)難題在于大模型的“幻覺”——即大模型輸出的結(jié)果,和人類說的話一樣自然,但在事實(shí)層面會(huì)“胡說八道”。

陳燁以實(shí)際案例舉例,針對(duì)這一問題,虎博應(yīng)用了一些經(jīng)典的監(jiān)督學(xué)習(xí)方法,如Ensemble和Probabilistic Modeling,結(jié)合到大模型中。

“假設(shè)人類在問模型一個(gè)事實(shí)性問題,Tigerbot不會(huì)只是簡(jiǎn)單地生成自然語言,而是同步利用更少量的數(shù)據(jù)就能知道人類意圖——在回答上,則會(huì)更好的權(quán)衡事實(shí)性和創(chuàng)造性。”陳燁補(bǔ)充。這樣的結(jié)果是,機(jī)器在訓(xùn)練模型中算力和數(shù)據(jù)的消耗,會(huì)比同等檔次模型要小。

針對(duì)中文語境,虎博科技從分詞器(Tokenizer)到訓(xùn)練算法等方面做了針對(duì)性算法優(yōu)化,使得模型更懂中文指令,提高了問答結(jié)果的中國(guó)文化屬性。

而在并?訓(xùn)練上,虎博的大模型團(tuán)隊(duì)也突破了比如 deep-speed 等主流框架中若?內(nèi)存和通信問題,使得在千卡環(huán)境下,可實(shí)現(xiàn)訓(xùn)練數(shù)??間斷。

虎博科技在大模型研發(fā)上選擇走開源路線。此次開源內(nèi)容包含模型、代碼、數(shù)據(jù)三部分,包含TigerBot-7B-sft、 TigerBot-7B-base、TigerBot-180B-research等多個(gè)模型版本;基本訓(xùn)練且覆蓋雙卡推理 180B 模型的量化和推理代碼;以及達(dá)100G的預(yù)訓(xùn)練數(shù)據(jù)、監(jiān)督微調(diào)1G/100萬條數(shù)據(jù)。

目前,這些內(nèi)容已經(jīng)全部在Github中發(fā)布(鏈接見此)。之所以選擇開源路線,陳燁表示,推進(jìn)人類文明的技術(shù)變革往往源于本能、直覺和偶然性,擁有自由的創(chuàng)新精神是根本。

“大模型技術(shù)就像是一門新興學(xué)科,是顛覆式且長(zhǎng)周期的,未來的可能性超越PC和互聯(lián)網(wǎng)。現(xiàn)階段過早和過于理性地探討產(chǎn)品、應(yīng)用、場(chǎng)景和商業(yè)化或許沒有必要,更重要的是推廣這一人工智能基礎(chǔ)設(shè)施的原創(chuàng)突破,促進(jìn)技術(shù)的發(fā)展和更新。”

出于上述的考慮,虎博除了一部分積累的預(yù)訓(xùn)練數(shù)據(jù)集,也同時(shí)開源了系統(tǒng)性的中文數(shù)據(jù)搜集和清洗方法論。陳燁并不認(rèn)為數(shù)據(jù)會(huì)成為壁壘:“更重要的是團(tuán)隊(duì)對(duì)于數(shù)據(jù)清洗的理論和系統(tǒng)性的高度,這是一個(gè)長(zhǎng)期的系統(tǒng)工程。”

虎博科技自成立之初就專注在中文NLP的技術(shù)和產(chǎn)品研發(fā)上,積累了大量高質(zhì)量的中文預(yù)訓(xùn)練數(shù)據(jù),本次發(fā)布的100G預(yù)訓(xùn)練數(shù)據(jù),就是其中的一部分。未來,虎博還將開放大量的金融、法律、百科等領(lǐng)域?qū)I(yè)數(shù)據(jù),供應(yīng)用開發(fā)者使用。

此前幾年,虎博科技基于NLP,開發(fā)了主要面向泛金融領(lǐng)域的NLP產(chǎn)品,如輿情監(jiān)測(cè)、搜索、知識(shí)圖譜等,也已經(jīng)用api的方式服務(wù)B端客戶。本次大模型的發(fā)布也會(huì)與虎博的業(yè)務(wù)相結(jié)合——當(dāng)前,虎博科技已經(jīng)面向老客戶提供包括內(nèi)容生成類的功能模塊。陳燁表示,大模型技術(shù)浪潮來臨后,在市場(chǎng)側(cè)感覺“客戶決策速度比以前更快,產(chǎn)品落地速度也更快。”

未來,虎博科技將持續(xù)投入力量到大模型的研發(fā)和落地中。陳燁談及了正在研發(fā)或者正在完善的一些功能,如研究助手TigerDoc、文創(chuàng)和營(yíng)銷工具等,虎博科技也正在內(nèi)測(cè)部分面向個(gè)人的類助手產(chǎn)品。

熱門文章
近日,曙光智慧工業(yè)戰(zhàn)略暨新品發(fā)布會(huì)在京舉辦。會(huì)上,曙光發(fā)布了工業(yè)數(shù)智平臺(tái)“曙睿 SugonRI?”,并以此為基礎(chǔ),提出“以數(shù)智底座,加速數(shù)實(shí)融合進(jìn)程,賦能新型工業(yè)化”的智慧工業(yè)戰(zhàn)略。
2023-06-08
X
主站蜘蛛池模板: 综合色88| 播放个毛片看看| 白嫩人妻抽搐挣扎喷潮连视频 | 莫妮卡三点尽露电影| 青草久久精品亚洲中文无东京热 | 国产精品人成视频国模视频| 张筱雨 大荫蒂 艺术课 大舒| 又黄又湿的小说| japan高清视频乱xxxxx| 日本人与zoxxxx另类| 国产99??对白在线播放| 亚洲va欧美va国产综合久久久| 久久久久久久久毛片精品| 绿帽极度放荡的娇妻np| 欧美色网络| GOGO大胆无码免费视频| 处xxxx.88| 六月激情婷婷| 天天想天天爱天天做天天爽| 国产AV无码专区亚洲AV桃花庵| 久操免费在线观看| 按摩师侵犯人妻中文字幕| 国产精品一区高清在线观看| 国产做受???高潮软件| 男生桶女生下面视频| snh48亚洲大片| 日日无码中文国产| 国产对白叫床清晰在线播放| 欧美丰满白嫩bbw激情| 久久天堂人妻久久久精品| 无遮挡1000部免费视频| 揉花蒂| 国产99在线播放| 亚洲精品综合在线| 小黄文网站| 16 一18 一19 性欧美| 美国式禁忌1?4在线| 久久香蕉综合色一综合色88| 国产黄大片在线视频| 一区二区荫蒂揉黑人欧美| 欧美金发尤物发视频|