又大又粗高清免费三级片,在线精品自偷自拍无码22p

從 Stability AI 和 Stable Diffusion 看 AIGC

2022-10-19 14:48

2022年10月17日，AIGC （AI Gererative Content）領(lǐng)域的知名項(xiàng)目 Stable Diffusion —— 背后的公司 Stability AI 宣布獲得了來自 Coatue、光速資本以及 O＇Shaughnessy 總計(jì) 1．01 億美元的種子輪投資，資金將用來面向圖像、語言、音頻、視頻以及 3D 領(lǐng)域的 AI 模型開發(fā)，投后估值達(dá)到 10 億美元。

作者｜Tim Jiang

編輯｜Tim Jiang

今年以來，AIGC 領(lǐng)域的相關(guān)創(chuàng)作工具如雨后春筍般出現(xiàn)，有概念詞「AIGC」，也有大眾詞「AI 繪畫」，更有技術(shù)詞「txt2img」，但本質(zhì)上它們都在講一個(gè)功能邏輯 —— 文字?jǐn)⑹龅接?jì)算機(jī)圖像的生成。

我梳理了幾個(gè)重要的項(xiàng)目和時(shí)間點(diǎn)供大家參考：

2021年10月，Somnai 在 Github 上創(chuàng)建了名為 Disco Diffusion 的項(xiàng)目，這是一款運(yùn)行在 Google Colab 上的 AI 程序，Somnai 在今年 2 月發(fā)布了 5．0 版本，用戶可根據(jù)場景關(guān)鍵詞渲染對應(yīng)圖像，隨后該項(xiàng)目開始在網(wǎng)絡(luò)上出圈，但該工具分辨率和算力相對有限；

2022年4月，OpenAI 發(fā)布了 DALL·E 2代模型，名字來源于著名畫家達(dá)利以及 2008 年的動(dòng)畫片《機(jī)器人瓦力》，是 DALL．E 的繼任者，OpenAI 背后獲得了微軟和包括 Khosla Ventures 的支持，DALL·E 2 能夠生成高度逼真的原創(chuàng)圖像，這些圖像的視覺風(fēng)格各異，有夢幻的也有寫實(shí)的，例如騎馬的宇航員和在古埃及買面包的泰迪熊，但工具本身在內(nèi)容創(chuàng)作邊界上更加收斂和限制；

2022年5月，Google 推出了 Imagen，Imagen 是一種文本到圖像的擴(kuò)散模型，能夠生成較為真實(shí)的圖片，在精度和質(zhì)量上優(yōu)于 DALL·E 2，但目前主要用于學(xué)術(shù)目的并不開放，且在帶有人物的創(chuàng)作上有更多限制；

2022年7月，Midjourney 項(xiàng)目進(jìn)入公測階段，這是該模型的第 3 版，第 2 版發(fā)布于今年 4 月。Midjourney 是一個(gè)獨(dú)立的研究實(shí)驗(yàn)室，創(chuàng)始人是原先 Leap Motion的聯(lián)創(chuàng) David Holz，而 Disco Diffusion 項(xiàng)目的原作者 Somnai 也在今年 5 月加入了 Midjourney；

Stability AI 是一家什么樣的公司

來到本篇的主角 —— Stable Diffusion，該項(xiàng)目由初創(chuàng)公司 StabilityAI 和慕尼黑大學(xué)機(jī)器視覺學(xué)習(xí)組和 AI 視頻剪輯技術(shù)創(chuàng)業(yè)公司 Runway 合作開發(fā)，并得到了黑客組織 EleutherAI 和德國非盈利組織 LAION 的支持。

Source：Mostaque，Business Insider；

Mostaque 目前是 Stability AI 的 CEO 兼聯(lián)合創(chuàng)始人，當(dāng)前的人員在 75 人左右。Mostaque 希望通過這個(gè)項(xiàng)目為大眾帶來新的 AI 應(yīng)用。在 Mostaque 和他的同事們看來，現(xiàn)有的 AI 技術(shù)只代表了人工智能藝術(shù)能夠創(chuàng)造的冰山一角，未來相關(guān)的用例可能包括大幅改進(jìn)的照片寫實(shí)、視頻和動(dòng)畫。

說來有趣，創(chuàng)立 Stability AI 的 Mostaque，既不是研發(fā)人員，也不是藝術(shù)家，他的背景是一名在倫敦從事 13 年對沖基金工作的金融人士。雖然從事對沖基金工作，但 Mostaque 也是妥妥的工科學(xué)霸，早年畢業(yè)于牛津大學(xué)數(shù)學(xué)和計(jì)算機(jī)專業(yè)。

Mostaque 希望通過這個(gè)項(xiàng)目為大眾帶來新的 AI 應(yīng)用，在他和同事們看來，現(xiàn)有的 AI 技術(shù)只代表了人工智能藝術(shù)能夠創(chuàng)造的冰山一角，未來相關(guān)的用例可能包括大幅改進(jìn)的照片寫實(shí)、視頻和動(dòng)畫。

除了文章開頭提到種子輪投資人，更早之前項(xiàng)目主要由 Mostaque 和一家名為 Eros Investment 進(jìn)行天使投資。Eros Investment 認(rèn)為 Stability AI 具備一定 3D 化身的能力，這些化身在未來將用于 AR／VR 游戲中，預(yù)計(jì)隨著 Stability AI 引入更快、更好和更專業(yè)的模型，質(zhì)量不斷提高，未來將進(jìn)一步添加音頻、3D 和視頻功能，并引入到 Canva 和 WordPress 等平臺中去。

由于 Stable Diffusion 項(xiàng)目的底層技術(shù)是免費(fèi)開源的，因此早期在商業(yè)模式上并沒有明確的定位。8 月份的時(shí)候，CEO Mostaque 在接受 Youtube 上的網(wǎng)紅機(jī)器學(xué)習(xí)工程師 Yannic Kilcher 采訪時(shí)表示，Stability AI 已經(jīng)與一些政府和領(lǐng)先機(jī)構(gòu)建立了合作伙伴關(guān)系來銷售這項(xiàng)技術(shù)，因此相比于其他起步就虧損的技術(shù)公司相比，公司將早早開始盈利。

Stable Disffusion 的創(chuàng)新是什么？

那么 Stable Disffusion 效果如何呢？你可以在幾秒內(nèi)就創(chuàng)作一張梵高繪制的碧昂斯肖像畫，又或是日本十八世紀(jì)藝術(shù)家葛飾北齋創(chuàng)作的賽博朋克城市景觀。

Source：KENRICK CAI via Stable Disffusion；

Stable Diffusion 項(xiàng)目帶來的主要革新是將模型的計(jì)算空間從原先的像素通過技術(shù)手段，在保留足夠豐富的信息與細(xì)節(jié)狀態(tài)下降為到一個(gè)更低的數(shù)量空間里，然后再通過一系列的訓(xùn)練和圖像進(jìn)行計(jì)算，而這個(gè)更低維的空間被稱為潛空間（Latent Space）。

潛空間對產(chǎn)業(yè)界來說，相比其它模型大幅降低了內(nèi)存和計(jì)算的要求，舉個(gè)例子，原先 512 x 512 對圖像一下子變成了 64 x 64，需要的內(nèi)存減少了 98％！原先只有研究人員才能進(jìn)行創(chuàng)作的條件一下子達(dá)到了消費(fèi)級，所以該項(xiàng)目出圈是必然的。

Stable Diffusion 開源后，一方面可以在大部分適配 GPU 的電腦上運(yùn)行，例如一臺 M1 的蘋果電腦，而 DALL·E2 以及 Midjourney 只能通過云計(jì)算訪問使用；另一方面，在內(nèi)容創(chuàng)作的范圍上，Stable Diffusion 較其它模型更加自由開放，用戶擁有創(chuàng)作的圖像權(quán)利，也可以自由地用作商業(yè)用途，Mostaque 表示開源能夠讓更多的人接觸到這項(xiàng)技術(shù)。

Source：Stability AI 官網(wǎng)；

回到產(chǎn)品的使用上，對于普通用戶 Stability AI 還推出了 DreamStudio，這就像是融合了Stable Diffusion 模型之后的在線 Photoshop，只不過新用戶注冊后需要按積分使用，不同參數(shù)條件下生成的圖像所消耗的積分不同，新用戶將獲得 200 積分，默認(rèn)條件是一張圖消耗 1 積分。

Source：作者通過DreamStudio繪制；

例如，我嘗試了用李白的《早發(fā)白帝城》的英文詩句輸入到 DreamStudio，出來的效果還是不錯(cuò)的。

img2img 下的 AIGC 趨勢

如果說 Stable Diffusion 的技術(shù)表述歸納為「text2img」，且多為 2D 平面內(nèi)容，那么該項(xiàng)目的新方向則是通過「img2img」完成 3D 內(nèi)容的創(chuàng)建。

什么是 img2img？Reddit 上的一名用戶發(fā)布了 6 張圖片，根據(jù)經(jīng)典 MS－DOS 上的游戲畫面進(jìn)行圖形優(yōu)化，效果如下：

Source：frigis9 on Reddit；

img2img 技術(shù)也是 Stable Diffusion 中的新功能，能進(jìn)一步將 text2img 生成的圖片真人化，使2D變3D，降低了廣大用戶將創(chuàng)意落地的門檻，釋放了大眾創(chuàng)意，而對于本身就靠創(chuàng)意吃飯的藝術(shù)工作者，它們通過該技術(shù)表達(dá)創(chuàng)意的能力也會進(jìn)一步提高，就像從紙面創(chuàng)意如同 8090 年代的 CAD 過渡那樣，如果說 CAD 全稱是 Computer Aided Design，那套個(gè) AIGC 概念就是 AI Aided Design．．．．．．

Source：Mostaque，Twitter；

當(dāng)然，與 DreamStudio 融合的實(shí)際效果和使用都需要一段時(shí)間的優(yōu)化中，特別是用在個(gè)人計(jì)算機(jī)上還需要一個(gè)過程，畢竟生成圖片的質(zhì)量需要對原先的素材進(jìn)行大量測試。

實(shí)際上，自今年 8 月份發(fā)布以來，Stable Disffusion 已經(jīng)在全球范圍吸引了 20 多萬開發(fā)人員下載和使用，而面向大眾的產(chǎn)品 DreamStudio 更是在 50 多個(gè)國家地區(qū)吸引了 100 多萬的用戶注冊使用，目前為止已經(jīng)累計(jì)創(chuàng)作了 1．7 億張圖像。

Source：《星際迷航》Holodeck，公開網(wǎng)絡(luò)；

Stability AI 的 CEO Mostaque 表示，隨著 GPU 和算力的提升，Stable Disffusion 可能一年之內(nèi)就能在智能手機(jī)上運(yùn)行，新技術(shù)將在更多低價(jià)的設(shè)備上進(jìn)行訓(xùn)練，很快就能看到 AI 推動(dòng)的創(chuàng)意出現(xiàn)指數(shù)級的增長，而 Stable Diffusion 和其他模型已經(jīng)開始摩拳擦掌著手動(dòng)態(tài)視頻的生成了，可能首先會進(jìn)入創(chuàng)作成本更低的短視頻領(lǐng)域，而他希望這個(gè)創(chuàng)作過程是多模態(tài)的，就像《星際迷航》的全息甲板（Holodeck）一樣。

Reference：

［1］《Stability AI Announces ＄101 Million in Funding for Open－Source Artificial Intelligence》，PR Newswire；

［2］《Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To ＄1 Billion》，F(xiàn)orbes；

［3］《Stable Diffusion， a milestone？》，AnalyticsIndiaMag；

封面：LOKESH CHOUDHARY

免責(zé)聲明：在任何情況下，本文信息或表述，不構(gòu)成任何投資建議；若有侵權(quán)，請后臺聯(lián)系刪除。

原文標(biāo)題 : 從 Stability AI 和 Stable Diffusion 看 AIGC