亚洲v欧美v另类v综合v日韩v,好看的黄色片,这里只有精品免费视频,特级做a爱片久久久久久

真·從零復刻ChatGPT！斯坦福等開啟「紅睡衣」計劃，先開源1.2萬億token訓練集

作者 | 新智元2023-04-23

Meta AI開源的大羊駝LLaMA模型徹底點燃了開源社區的熱情，并在此基礎上相繼開發出了各種類ChatGPT的羊駝Alpaca, Vicuna等。

但Meta只是開源了LLaMA的權重，訓練用到的數據集并沒有開源出來，對于那些想從頭開始訓練LLaMA的從業者來說，目前還沒有開源方案。

最近，由Ontocord.AI，蘇黎世聯邦理工學院DS3Lab，斯坦福CRFM，斯坦福Hazy Research 和蒙特利爾學習算法研究所的宣布開啟「紅睡衣」(RedPajama)計劃，旨在生成可復現、完全開放、最先進的語言模型，即從零一直開源到ChatGPT!

下載地址：

https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T

預處理倉庫：https://github.com/togethercomputer/RedPajama-Data

「紅睡衣」開源計劃總共包括三部分：

1. 高質量、大規模、高覆蓋度的預訓練數據集;

2. 在預訓練數據集上訓練出的基礎模型;

3. 指令調優數據集和模型，比基本模型更安全、可靠。

目前紅睡衣計劃中的第一部分，即預訓練數據集RedPajama-Data-1T已開源，包括七個子集，經過預處理后得到的token數量大致可以匹配Meta在原始LLaMA論文中報告的數量，并且數據預處理相關腳本也已開源。

完整的RedPajama-Data-1T數據集需要的存儲容量為壓縮后3TB，解壓后5TB，有條件、有網速的小伙伴可以開始搞起來了!

目前開發團隊正在橡樹嶺領導計算設施(OLCF)的支持下開始訓練模型，預計幾周后即可開源。

通過OpenChatKit，研究人員已經收到了數十萬條高質量的自然用戶指令，將用于發布 RedPajama 模型的指令優化版本。

復刻LLaMA

2023年2月27日，Meta推出LLaMa并發布了相關論文。

論文鏈接：https://arxiv.org/pdf/2302.13971.pdf

LLaMa實際上是一組基礎語言模型的統稱，其參數范圍從70億到650億不等，其中LLaMA-13B(130億參數)版本甚至在大多數基準測試中都優于1750億參數的GPT-3;最大的LLaMA-65B和Chinchilla-70B和PaLM-540B相比也不落下風。

和之前的大模型不同的是，LLaMa完全使用「公開數據集」就達到了SOTA，并不存在其他模型中「不可告人」的秘密，無需使用專用或只存在于虛空中的數據集。

具體使用的數據集和預處理操作如下。

English CommonCrawl-占比67%

使用CCNet pipeline對五個CommonCrawl dumps(2017-2020年)進行預處理，刪除重復的行，并用fastText線性分類器進行語言分類，去除非英語頁面，并用ngram語言模型過濾低質量內容。

還訓練了一個線性模型來對維基百科中用作參考文獻的頁面與隨機采樣的頁面進行分類，并去除未被分類為參考文獻的頁面。

C4-占比15%

在探索實驗中，研究人員觀察到使用多樣化的預處理CommonCrawl數據集可以提高性能，所以將公開的C4數據集納入我們的數據。

C4的預處理也包含重復數據刪除和語言識別步驟：與CCNet的主要區別是質量過濾，主要依靠啟發式方法，如是否存在標點符號，以及網頁中的單詞和句子數量。

Github-占比4.5%

使用谷歌BigQuery上的GitHub公共數據集，只保留在Apache、BSD和MIT許可下發布的項目。

然后用基于行長或字母數字字符比例的啟發式方法過濾了低質量的文件，并用正則表達式刪除了HTML boilerplate(如等)。

最后在文件層面上對所生成的數據集進行重復計算，并進行精確匹配。

維基百科-占比4.5%

數據集中添加了2022年6月至8月期間的維基百科dumps，涵蓋20種語言，包括使用拉丁字母或西里爾字母的語言，具體為bg, ca, cs, da, de, en, es, fr, hr, hu, it, nl, pl, pt, ro, ru, sl, sr, sv, uk;然后對數據進行預處理，以去除超鏈接、評論和其他格式化的html模板。

Gutenberg and Books3-占比4.5%

訓練數據集中包括兩個書籍相關的語料庫，Gutenberg Project為公共領域的書籍;ThePile中Books3部分是一個用于訓練大型語言模型的公開數據集。

預處理操作主要是刪除重復內容超過90%的書籍。

ArXiv-占比2.5%

通過處理arXiv的Latex文件將科學數據添加到訓練數據集中，刪除了第一節之前的所有內容，以及書目;還刪除了.tex文件中的注釋，以及用戶寫的內聯擴展的定義和宏，以提高不同論文的一致性。

Stack Exchange-占比2%

Stack Exchange是一個高質量問題和答案的網站，涵蓋了從計算機科學到化學等不同領域。保留了28個最大網站的數據，刪除了文本中的HTML標簽，并按分數(從高到低)對答案進行了排序。

分詞器(Tokenizer)

根據SentencePiece的實現使用字節對編碼(byte-pair-encoding，BPE)算法對數據進行分詞，其中連續的數字被分割成單個數字。

最終整個訓練數據集在分詞后獲得了大約1.4T的tokens，除了維基百科和圖書數據外，其他的數據在訓練期間只使用一次，總共進行了約兩個epochs。

參考資料：https://www.together.xyz/blog/redpajama

您可能感興趣

搞懂物聯網產業鏈其實很簡單！《2023年中國AIoT產業全景圖譜》重磅發布！

2022摯物·AIoT產業領袖峰會【線上直播】

波音空客聯名致信美交通部長,要求推遲C波段5G網絡推廣

6年市場翻近6倍，5G攪得動室內定位這400多億美元的風云嗎？

打造智慧城市“底座”多地時空大數據平臺建設迎來新進展

中移物聯出行物聯網成果亮相2022智博會

熱門文章

1

將Agentic AI嵌入家庭網關,如何改變運營商在物聯網市場的游戲規則?

3天前

2

格創東智與香港大學共建工業AI聯合實驗室，推動香港成為全球工業AI創新樞紐

4天前

3

物聯網規模化應用發展：智能網聯汽車發揮示范作用

4天前

4

北京 InfoComm China 2025 今天盛大開幕 AI驅動專業視聽新生態，為亞太市場帶來更多機遇

5天前

5

涂鴉智能亮相2025春電展，以AI科技重塑智能硬件新紀元

5天前

6

垂類模型的晉級之路:從工業互聯網的成敗看未來AI的落地邏輯

6天前

7

工業巨頭西門子開始提供5G切片服務,開拓B2B2B商業模式

6天前

8

滿格地鐵暢聯申城上海地鐵5G公眾信號全線網覆蓋啟動儀式成功舉行

6天前

9

豪擲巨款收入囊中！半導體巨頭盯上邊緣AI/端側AI明星企業

1周前

10

揭秘！2025慕尼黑上海電子展丨展位圖及展商名單公布！

1周前

11

邊緣智能+垂類模型:AIoT 2.0的"雙引擎"

1周前

12

端側AI領袖之聲：比鄰智聯--無AI，不物聯

1周前

13

萬字回顧中國生成式AI大會！50+大咖演講精華干貨爆棚，來沒來都值得收藏

1周前

14

針對極端天氣的巨災保險，物聯網能夠發揮什么作用？

1周前

15

蜂擁的人流量背后，這場展會憑什么號稱“行業資源庫”？

2周前

16

華為攜手菲尼克斯，共推工業數智化

2周前

17

2025電子產業四大猜想，慕尼黑上海電子展帶你一站了解政策、技術、市場的多維破局？

2周前

18

“具身智能十五大重點方向”明確產業發展熱點，上下游合力推動具身時代到來

2周前

19

廣和通亮相火山引擎“AIoT智變浪潮”，共探AI智能硬件全球化機遇

2周前

20

康盈半導體徐州測試基地投產，為存儲產品品質護航

2周前

芯片設計巨頭要加入制造商競爭，消息稱Arm擬自行打造先進半導體

IT之家 4 月 23 日消息，據英國《金融時報》報道，知情人士稱，軟銀集團旗下芯片設計公司 Arm 將與制造伙伴合作開發自家半導體，尋求吸引新客戶并在預計今年晚些時候完成的 IPO 后推動公司增長。

2023-04-23

智次方·物聯網智庫 —— 研究型智能產業服務平臺

關于智次方

友情鏈接

ITES深圳工業展

極客邦科技

智聯車智庫

智吱屋小程序

本站由阿里云提供計算與安全服務違法和不良信息舉報電話：010-88884220 舉報郵箱：liuzong@zzw.com 網上有害信息舉報

?2022 北京英維塔科技有限公司京ICP備16012223號-1

京ICP備16012223號

智次方·物聯網智庫 —— 研究型智能產業服務平臺

X

主站蜘蛛池模板：午夜久久免影院欧洲| 日韩啊v| 美女被吸乳羞羞动漫| 亚洲gv猛男gv无码男同网站| 午夜生活国产一级A片| 蜜臀AⅤ一区别二区三区| 欧美色图偷窥自拍| 久久不卡| japan小娇hdxxxx日本| 亚洲色欲色欱WWW在线观看| 国产一国产一级新婚之夜| 性xxxfreexxxx性欧美| 老富婆的婬乱生活h| GV欧美69GAY片| 中国一级特黄大片视频播放| 97色伦欧美综合在线| 成人软件网18免费视频| 国内女厕偷窥911嘘嘘www| 欧美特黄一级高清免费的香蕉| 亚色影库| 波多野结衣一区二区三区| 国产香蕉尹人视频在线| 迅雷三级| 啊?日出水了?用力h| 我丰满的岳?50岁| 娱乐之国粹大师| 亚洲乱码卡一卡二卡三| 国产欧美亚洲一区在线电影| 狠狠躁夜夜躁av网站色| 欧美日韩视频在线一区二区| yy6080影院| 在线欧美视频免费观看国产 | 美女被视频在线看九色| a级黄色毛片三| 李丽莎大尺度视频观看| 男生把??伸进老师的??www| 香港三级巜欲性高蜜桃成熟时类似 | 性爱一级视频| 男人桶女人视频| 日本床爱全过程激烈视频| 米奇欧美777四色在线影视|