一覺(jué)醒來(lái),GPT-4突然間就來(lái)了,而這距離ChatGPT的發(fā)布,才僅僅過(guò)去了四個(gè)多月。
此前,曾傳聞GPT-4有100萬(wàn)億參數(shù),比現(xiàn)在的ChatGPT強(qiáng)大500多倍,不過(guò)這一說(shuō)法很快被辟謠。近日,OpenAI的CTO曾經(jīng)對(duì)媒體表示,讓大家“少一些關(guān)于GPT-4的炒作會(huì)更好”,而從今天發(fā)布的GPT-4來(lái)看,這句話多少帶點(diǎn)欲揚(yáng)先抑的意味。在發(fā)布的博文中,OpenAI這樣表示:
GPT-4是OpenAI努力擴(kuò)展深度學(xué)習(xí)的最新里程碑,它是一個(gè)大型多模態(tài)模型(接受圖像和文本輸入,提供文本輸出),雖然在許多現(xiàn)實(shí)世界場(chǎng)景中的能力不如人類,但在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上表現(xiàn)出人類水平。
加入圖片識(shí)別功能和外界此前的猜測(cè)一樣,GPT-4是一個(gè)多模態(tài)大型語(yǔ)言模型,不再僅僅處理文本數(shù)據(jù),對(duì)圖片也有了理解能力。但相比于此前各大科技公司推出的多模態(tài)模型,GPT-4可以說(shuō)是遙遙領(lǐng)先。雖然官方表示,GPT-4現(xiàn)在只開放了文字輸入的功能,圖片輸入功能還在加緊開發(fā)中。但在官方的文章中,OpenAI給出了幾個(gè)使用范例,如說(shuō)明圖片的內(nèi)容、分析圖表、解答圖片內(nèi)的考題、找出圖片不尋常的原因等,已經(jīng)讓人大開眼界。
在OpenAI官方發(fā)布的視頻中,GPT-4通過(guò)識(shí)別上圖中隨便畫出的草圖,就識(shí)別出了這是一個(gè)關(guān)于網(wǎng)站的草圖,然后“順手”生成了建成這個(gè)網(wǎng)頁(yè)的全部代碼,再然后...一個(gè)網(wǎng)站就這樣建成了。
還有一個(gè)官方示例也值得一提,當(dāng)被問(wèn)到下圖的笑點(diǎn)在哪里時(shí),GPT-4的回答更是讓人驚嘆:“這張圖片中的幽默來(lái)自于將過(guò)時(shí)的大型 VGA 連接器插入小型現(xiàn)代智能手機(jī)充電端口的荒謬做法”,從這一回答中可以看出,GPT-4所具備的推理能力已經(jīng)有了大幅度提高。
一直以來(lái),人工智能雖然表現(xiàn)出了強(qiáng)大的能力,但邏輯推理依然是人類區(qū)別于AI的最顯著特征,而GPT-4表現(xiàn)出的邏輯和推理能力,需要所有人開始重新思考人類區(qū)別于AI的本質(zhì)到底是什么。
支持更長(zhǎng)的輸入和輸出相比于ChatGPT,GPT-4可接受的文字輸入長(zhǎng)度增加到3.2萬(wàn)個(gè)Token,約2.4萬(wàn)單詞,同時(shí)也支持更長(zhǎng)的輸出,大約能處理長(zhǎng)達(dá)25000字的文本,這使得更多的應(yīng)用場(chǎng)景變?yōu)榭赡埽玳L(zhǎng)文本的創(chuàng)建、超長(zhǎng)對(duì)話和文檔的搜尋和分析等,僅需一次對(duì)話,就足夠?qū)懸徊縿”净蛘叨唐≌f(shuō)了。
考試能力超過(guò)90%人類對(duì)于GPT-4來(lái)說(shuō),最強(qiáng)的并不是視覺(jué)能力的加入,因?yàn)楹芏嗟亩嗄B(tài)模型早就已經(jīng)做出了類似的功能,其最亮眼的功能是它所表現(xiàn)出的推理能力,在GRE、SAT和美國(guó)法學(xué)院考試等我們較為熟悉的美國(guó)考試中,GPT-4的得分幾乎和人類考生沒(méi)有區(qū)別了,其中,GPT-4在模擬律師考試的成績(jī)?cè)诳忌信琶?0%左右,在SAT閱讀考試中排名前7%左右,在SAT數(shù)學(xué)考試中排名前11%左右。在GRE考試中的數(shù)學(xué)部分,滿分是170分,GPT-4獲得163分,而上一代GPT-3.5得分為147分,在GRE語(yǔ)言部分,GPT-4得分為169分,GPT-3.5得分為154分。
也就是說(shuō),GPT-4已經(jīng)可以靠自己考上斯坦福大學(xué)。
從下圖中也可以看出,GPT-4相比于GPT-3.5,在多項(xiàng)專業(yè)考試中都有了巨大的提升(綠色部分為GPT-4提升的部分)。不過(guò),OpenAI官方也警告說(shuō),新版本還不完美,在許多情況下,它的能力不如人類。
支持更多語(yǔ)言許多現(xiàn)有的機(jī)器翻譯的基準(zhǔn)測(cè)試都是用英語(yǔ)編寫的。而為了初步了解 GPT-4 在其他語(yǔ)言上的能力,OpenAI的研究團(tuán)隊(duì)還使用Azure Translate將MMLU基準(zhǔn)翻譯成多種語(yǔ)言,這套基準(zhǔn)涵蓋了57個(gè)主題的14000個(gè)多項(xiàng)選擇題 ,在測(cè)試的26種語(yǔ)言的24種中,GPT-4全部?jī)?yōu)于GPT-3.5和其他大語(yǔ)言模型。
以上這些也僅僅只是OpenAI官方示例的一小部分,OpenAI的總裁和聯(lián)合創(chuàng)始人還展示了GPT-4有關(guān)總結(jié)文章、寫代碼、報(bào)稅、寫詩(shī)等一系列能,可以說(shuō)GPT-3.5做不到的, GPT-4大都可以輕松解決。
GPT-4發(fā)布之后,微軟在第一時(shí)間表示:“如果你在過(guò)去五周內(nèi)的任何時(shí)候使用過(guò)新的 Bing 預(yù)覽版,你就已經(jīng)提前了解了 OpenAI 最新模型的強(qiáng)大功能”。是的,新版必應(yīng)搜索早已經(jīng)用上了GPT-4,在過(guò)去五周中,很多人體驗(yàn)的必應(yīng)就是GPT-4加強(qiáng)過(guò)的,只不過(guò)僅僅開放使用了文字能力而已。雖然微軟沒(méi)有用全球首發(fā)的字眼來(lái)描述,畢竟微軟在OpenAPI上已經(jīng)投入了130億美元(約合人民幣900億元),換來(lái)的這樣的待遇也是情理之中。
在搜索上,微軟的必應(yīng)長(zhǎng)期以來(lái)都無(wú)法跟谷歌相競(jìng)爭(zhēng),市場(chǎng)份額更是差了一個(gè)量級(jí),但是隨著ChatGPT的問(wèn)世,微軟率先接入使用,CEO納德拉表示他們的搜索已經(jīng)優(yōu)于谷歌了。而這次GPT-4也被曝用在了必應(yīng)搜索中,不知道谷歌方面是否依然還能“坐懷不亂”。
可以說(shuō),微軟是ChatGPT和GPT-4的最大贏家。在過(guò)去的兩年里,OpenAI重建了整個(gè)深度學(xué)習(xí)堆棧,并利用微軟的Azure設(shè)計(jì)了一臺(tái)超級(jí)計(jì)算機(jī),以便于應(yīng)對(duì)他們超高的工作負(fù)載,通過(guò)此前獲得的經(jīng)驗(yàn),GPT-4才能快速而穩(wěn)定的完成了GPT-4的訓(xùn)練,也為微軟的云服務(wù)贏得了更多的業(yè)務(wù)。
目前,如果想要體驗(yàn)GPT-4的強(qiáng)大功能,有三種方式可以選擇:
1.花費(fèi)每月20美元訂閱ChatGPT Plus直接體驗(yàn)地址:https://chat.openai.com/chat
2.加入等候列表排隊(duì)申請(qǐng)內(nèi)測(cè),等待API開放地址:https://openai.com/waitlist/gpt-4-api
3.申請(qǐng)加入開源的OpenAI Evals,共同參與改進(jìn)GPT-4的效果地址:github.com/openai/evals
同時(shí),OpenAI表示已經(jīng)與許多公司進(jìn)行了深度合作,將GPT-4并入它們的產(chǎn)品中,包括Duolingo,Stripe,Khan Academy等,有科學(xué)上網(wǎng)方式的用戶,未來(lái)也可以在更多的產(chǎn)品中直接體驗(yàn)到GPT-4。當(dāng)前,使用GPT-4的定價(jià)是每1k prompt tokens 0.03美元,每1k completion tokens 0.06美元,默認(rèn)速率限制在每分鐘40k tokens和每分鐘200個(gè)請(qǐng)求,價(jià)格雖然有所上升,但相比于ChatGPT來(lái)說(shuō),返回文本的速度也有了大幅度提高。
此外,OpenAI表示, 在比較簡(jiǎn)單的對(duì)話中,GPT-4的表現(xiàn)和之前的ChatGPT相比不會(huì)差太多,但在復(fù)雜的問(wèn)題上,答案的合理性、正確性等方面都更加優(yōu)秀。因?yàn)镚PT-4至少經(jīng)過(guò)了6個(gè)月的“安全訓(xùn)練”,目前相比于GPT-3.5,有82%的可能性不會(huì)對(duì)不允許的內(nèi)容進(jìn)行回應(yīng),40%的可能性會(huì)提供基于事實(shí)的回應(yīng)。也就是說(shuō),相比于此前對(duì)于某些問(wèn)題一本正經(jīng)的胡說(shuō)八道,GPT-4“幻想”出來(lái)的內(nèi)容的少了很多,但依然有可能會(huì)出現(xiàn)。因此,強(qiáng)烈建議在使用GPT-4的服務(wù)時(shí),如果是重要性較高的內(nèi)容,最好還是把GPT-4作為輔助,同時(shí)加以人工校對(duì)。
寫在最后
這次,OpenAI并沒(méi)有公布具體模型大小的細(xì)節(jié),也沒(méi)有公布用來(lái)訓(xùn)練模型的硬件,理由是出于“競(jìng)爭(zhēng)原因”。沒(méi)有了數(shù)據(jù)、模型和算力的對(duì)外參考,OpenAI已經(jīng)構(gòu)建起了自己更寬更深的“護(hù)城河”能力,也側(cè)面說(shuō)明了新一輪的科技軍備競(jìng)賽已經(jīng)打響。
當(dāng)國(guó)內(nèi)各大企業(yè)還在搶發(fā)“中國(guó)版ChatGPT”的時(shí)候,GPT-4的突然發(fā)布,讓復(fù)現(xiàn)GPT-3.5和ChatGPT的各類工作都在瞬間黯然失色。在這個(gè)時(shí)候,不僅谷歌等科技大廠需要思考為什么會(huì)落后于僅有三百多名員工的OpenAI,每個(gè)人也都需要思考未來(lái)的創(chuàng)新到底是什么樣子。