7月28日晚,繼上周阿里AI三連發(fā)后,阿里又扔出新的開源模型,電影級視頻生成模型通義萬相Wan2.2。Wan2.2直接將光影、色彩、鏡頭語言三大電影美學(xué)元素裝進模型,可以隨意組合60多個直觀可控的參數(shù),大幅提升電影級畫面的制作效率。
通義萬相官方展示了《星際穿越》、《布達佩斯大飯店》、《海上鋼琴師》等電影的經(jīng)典畫面,向影視經(jīng)典致敬,目前該模型單次可生成5s的高清視頻,用戶可通過多輪提示詞進一步完成短劇制作,未來通義萬相還將繼續(xù)提升單次視頻生成的時長,讓視頻創(chuàng)作更高效。
據(jù)介紹,Wan2.2此次共開源文生視頻(Wan2.2-T2V-A14B)、圖生視頻(Wan2.2-I2V-A14B)和統(tǒng)一視頻生成(Wan2.2-TI2V-5B)三款模型,其中文生視頻模型和圖生視頻模型均為業(yè)界首個使用MoE架構(gòu)的視頻生成模型,總參數(shù)量為27B,激活參數(shù)14B,均由高噪聲專家模型和低噪專家模型組成,分別負(fù)責(zé)視頻的整體布局和細(xì)節(jié)完善,在同參數(shù)規(guī)模下,可節(jié)省約50%的計算資源消耗,有效解決視頻生成處理Token過長導(dǎo)致的計算資源消耗大問題,同時在復(fù)雜運動生成、人物交互、美學(xué)表達、復(fù)雜運動等維度上也取得了顯著提升。
Wan2.2還首創(chuàng)了電影美學(xué)控制系統(tǒng),光影、色彩、構(gòu)圖、微表情等能力媲美專業(yè)電影水平。例如,用戶輸入「黃昏」、「柔光」、「邊緣光」、「暖色調(diào)」「中心構(gòu)圖」等關(guān)鍵詞,模型可自動生成金色的落日余暉的浪漫畫面;使用「冷色調(diào)」、「硬光」、「平衡圖」、「低角度」的組合,則可以生成接近科幻片的畫面效果。
輸入提示詞:視頻展示了一位三十多歲的黑人女性在黃昏色調(diào)的復(fù)古濾鏡下,平靜地坐在行駛中的地鐵車廂內(nèi)。周圍人群來回走動,形成明顯的運動模糊,而她始終保持清晰,象征著混亂中的靜止。柔和的光線與電影畫質(zhì)營造出喜怒無常的環(huán)境氛圍,突顯她在喧囂世界中的沉穩(wěn)與內(nèi)斂,呈現(xiàn)出強烈的現(xiàn)實主義風(fēng)格。通義萬相即可精準(zhǔn)理解提示詞中的美學(xué)詞,并生成一段復(fù)古且富有文藝感的視頻。
輸入提示詞:白天,晴天光,邊緣光,暖色調(diào),低飽和度,極端全景,平衡構(gòu)圖,畫面中有兩名穿著宇航服的人,他們正站在一片廣闊的水域中。他們都穿著白色為主、帶有深色拼接和標(biāo)記的厚重宇航服,并頭戴配有面罩的頭盔。位于前方的人正朝著觀看者的方向涉水前行,水面淹及他的大腿,他的面部表情嚴(yán)肅。另一人站在他身后稍遠的位置,同樣身處水中。在他們身后,一艘外形具有未來感的飛行器停泊在水面上。這艘飛行器有著扁平、寬大的機翼和棱角分明的設(shè)計。整個場景的背景是布滿云彩的天空和無邊無際的水面。通義萬相可生成一段復(fù)刻電影《星際穿越》中宇航員在米勒星球的經(jīng)典畫面。
通義萬相還開源了一款5B小尺寸的統(tǒng)一視頻生成模型,單一模型同時支持文生視頻和圖生視頻,可在消費級顯卡部署。該模型采用了高壓縮率3D VAE架構(gòu),時間與空間壓縮比達到高達 4×16×16,信息壓縮率提升至 64,均實現(xiàn)了開源模型的最高水平,僅需22G顯存(單張消費級顯卡)即可在數(shù)分鐘內(nèi)生成5秒高清視頻,是目前24幀每秒、720P像素級視頻生成速度最快的基礎(chǔ)模型之一。
即日起,開發(fā)者可在GitHub、HuggingFace、魔搭社區(qū)下載模型和代碼,企業(yè)可在阿里云百煉調(diào)用模型API,用戶還可在通義萬相官網(wǎng)和通義APP直接體驗。
自今年2月以來,通義萬相已連續(xù)開源文生視頻、圖生視頻、首尾幀生視頻和全能編輯等多款模型,在開源社區(qū)的下載量已超500萬,是開源社區(qū)最受歡迎的視頻生成模型之一。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 吉利攜階躍星辰亮相WAIC 2025 ,發(fā)布全域AI技術(shù)成果
- 中國兩款六代機加速測試,美國卻陷入麻煩之中,其實早有端倪
- 演唱會什么時候成了手機賽點?
- 4000萬!餓了么前CEO被刑拘,7人被抓:平臺反腐從遮羞到“止血”
- 自研大模型+多模態(tài)交互!康佳易AI系統(tǒng)讓操作變“零門檻”
- 阿里AI四連發(fā),電影級視頻模型Wan2.2又開源!
- WAIC見證中國AI突破:Rokid Glasses定義下一代交互標(biāo)準(zhǔn)
- 引領(lǐng)汽車加速向具身智能進化 吉利汽車集團攜階躍星辰聯(lián)合參展2025世界人工智能大會
- 吃掉喜馬拉雅,騰訊音樂增長瓶頸有救了?
- 首個智能存力調(diào)度平臺啟動!與算力網(wǎng)絡(luò)共同加速AI創(chuàng)新
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。