Stability AI宣布推出Stable Diffusion XL1.0,這是一款文本到圖像的模型,該公司稱之為迄今為止“最先進”的版本。除了Stability的API和消費者應用ClipDrop和DreamStudio之外,Stable Diffusion XL1.0還在GitHub上以開源的形式提供,Stability聲稱,與其前身相比,Stable Diffusion XL1.0提供了“更鮮艷”和“準確”的顏色,以及更好的對比度、陰影和光照效果。
在接受TechCrunch采訪時,Stability AI的應用機器學習負責人Joe Penna指出,Stable Diffusion XL1.0包含了35億個參數,可以在多種縱橫比下“在幾秒鐘內”產生全1兆像素分辨率的圖像?!皡怠笔悄P蛷挠柧殧祿袑W習到的部分,基本上定義了模型在一個問題上的技能,在這里就是生成圖像。
上一代Stable Diffusion模型,Stable Diffusion XL0.9,也可以產生更高分辨率的圖像,但需要更多的計算力。
“Stable Diffusion XL1.0是可定制的,可以針對概念和風格進行微調?!盤enna說。“它也更容易使用,能夠通過基本的自然語言處理提示實現復雜的設計?!?/strong>
Stable Diffusion XL1.0在文本生成方面也有所改進。雖然許多最好的文本到圖像模型都難以生成帶有清晰標志的圖像,更不用說書法或字體了,但Penna說,Stable Diffusion XL1.0能夠實現“先進”的文本生成和可讀性。
此外,正如SiliconAngle和VentureBeat報道的那樣,Stable Diffusion XL1.0還支持修復(重建圖像缺失的部分)、擴展(擴展現有圖像)和“圖像到圖像”提示——意味著用戶可以輸入一個圖像,并添加一些文本提示來創建更詳細的變化。而且,該模型能夠理解復雜的、多部分的、用簡短提示給出的指令,而之前的Stable Diffusion模型則需要更長的文本提示。
“我們希望通過發布這個更強大的開源模型,不僅圖像的分辨率會增加四倍,而且還會帶來一些巨大的進步,這將極大地惠及所有用戶?!彼a充說。
但是與之前版本的Stable Diffusion一樣,該模型也引發了一些棘手的道德問題。
Stable Diffusion XL1.0的開源版本理論上可以被不法分子用來生成有毒或有害的內容,比如未經同意的換臉。這在一定程度上反映了用來訓練它的數據:來自網絡的數百萬張圖片。
無數教程演示了如何使用Stability AI自己的工具,包括DreamStudio,一個為Stable Diffusion提供開源前端界面的工具來創建換臉。還有無數其他教程展示了如何微調基礎的Stable Diffusion模型來生成色情內容。
Penna并沒有否認濫用是可能發生的——并承認該模型也包含了某些偏見。但他補充說,Stability AI已經采取了“額外的步驟”來減少有害內容的生成,通過過濾模型的訓練數據中的“不安全”圖像,發布與有問題的提示相關的新警告,并盡可能地在工具中屏蔽單個有問題的術語。
Stable Diffusion XL1.0的訓練集還包括了一些藝術家的作品,這些藝術家曾經抗議過包括Stability AI在內的一些公司使用他們的作品作為生成式人工智能模型的訓練數據。Stability AI聲稱,它受到了美國公平使用原則的法律保護。但這并沒有阻止一些藝術家和庫存照片公司Getty Images提起訴訟,以阻止這種做法。
Stability AI與初創公司Spawning有合作關系,尊重這些藝術家的“退出”請求,表示它并沒有從其訓練數據集中刪除所有被標記的藝術作品,但它“繼續考慮藝術家的要求”。