女人被狂躁到高潮呻吟小说,蜜桃成人网,女人与公豬交交30分钟视频,久久无码精品一区二区三区,浓毛老太交欧美老妇热爱乱

盤古世界模型問世!華為博士天團答疑如何用4D空間重構(gòu)物理世界

6月20日-22日,一年一度的華為開發(fā)者大會(HDC 2025)隆重啟幕。大會期間,AI科技創(chuàng)業(yè)者、Al暢銷書作者、人工智能頭部自媒體博主GenJi(李艮基)攜手華為博士天團,圍繞盤古NLP大模型、盤古世界模型、具身智能,以及預(yù)測大模型四大核心內(nèi)容,展開了一場深度技術(shù)對談,華為AI領(lǐng)域核心研發(fā)團隊首次集中揭秘,干貨滿滿!

盤古世界模型問世!華為博士天團答疑如何用4D空間重構(gòu)物理世界

以下是本次直播實錄“盤古世界模型”部分——

盤古世界模型問世!華為博士天團答疑如何用4D空間重構(gòu)物理世界

GenJi:“世界大模型”一詞被反復(fù)提及,那么,華為是如何理解世界大模型的?

金博士:之前大家對大模型的研究較偏重于理解這個世界、但我們更需要生成這個世界,以及預(yù)測這個世界的未來,因為只有預(yù)測未來世界,才能輔助做出一些決策、行為和交互,從而將物理世界和虛擬世界建立聯(lián)系。為此大家想了很多路徑,早在大模型之前,可能會采用一些人腦科學(xué)技術(shù),通過對人腦過程進行模擬,構(gòu)造理解模型;后來人們發(fā)現(xiàn),借助數(shù)據(jù)驅(qū)動的方式反而更好,所以有了LLM大語言模型,通過數(shù)據(jù)驅(qū)動的算法學(xué)習(xí)世界規(guī)律,該規(guī)律主要體現(xiàn)在文字層面或語義層面,語義層面只能做出理解,但無法驅(qū)動這個世界,因為驅(qū)動這個世界需要生成世界的能力,在這方面當前有很多種研究,包括多模態(tài)視頻生成大模型、3D生成等。

盤古世界模型問世!華為博士天團答疑如何用4D空間重構(gòu)物理世界

GenJi:無論產(chǎn)界還是學(xué)界都對世界大模型有相關(guān)定義,那么,友商是如何界定的?

王博士:世界模型概念是較為廣泛的概念。只從生成方向介紹,例如,有人認為大語言模型是對世界的生成,它也是一維的生成;有人認為普通的視頻生成模型是世界模型,也能夠生成真實的世界;再進一步,有人認為可控的視頻生成,通過交互控制下一幀往哪個方向發(fā)展的視頻生成模型,是一個世界模型;還有人認為只有生成一個完整的3D空間,顯示出3D表征才算是世界模型。大家對此也還會有不同的理解。

GenJi:通過剛才的分享,讓我想起馬斯洛的《動機與人格》,從理解世界到生成世界,就是讓機器和人工智能逐漸理解人做事情的動機,產(chǎn)生相關(guān)的行為。我想問一下兩位,做世界大模型的初心或者動機是什么?

金博士:從兩個層面來說:一是技術(shù)層面,之前做大模型都是偏單模態(tài),如CV大模型、大語言模型。后來大家發(fā)現(xiàn),之前的大模型都是單一圖像或者NLP單一模態(tài),在此基礎(chǔ)上,通過融合產(chǎn)生了多模態(tài)理解大模型,即融合圖像和NLP模態(tài)。另外,視頻生成,它的輸入是NLP或一種語言,這種語言往往比較簡單,不像大語言模型,需要輸入很長的tokens,繼而生成一個視頻、生成多樣化世界的模擬。下一步,我們考慮是否能夠?qū)⒗斫夂蜕勺鲆粋€融合,因為世界是多模態(tài)的,會得到我們認為的動態(tài)輸出加動態(tài)輸入的全模態(tài)模型,這些模態(tài)也是我們?nèi)祟惉F(xiàn)在感受到的世界原始信號。如果將人的行為納入進去,如具身大模型、自動駕駛大模型,那么不光有真實世界感知的信號,還包括行為的信號。所以,從技術(shù)上來說,大模型會融合多種模態(tài)包括人的模態(tài)、自然的模態(tài)等。

二是業(yè)務(wù)層面,目前,為保障自動駕駛安全行駛,至少需要在真實路況上行駛110億英里,因為交通事故等是沒有辦法進行預(yù)測的。因而,為了達到這一目的,我們可以在虛擬世界進行驗證和仿真。其實,具身智能比自動駕駛更難,因為具身還沒有訓(xùn)練數(shù)據(jù)集,所以需要在物理世界中采集和虛擬世界模擬訓(xùn)練數(shù)據(jù)集,從而滿足具身大模型所需要的大數(shù)據(jù)量,實現(xiàn)具身大模型的scaling law訓(xùn)練范式。

GenJi:請問華為今年在STCG方面有哪些革新和變化?

金博士:其實做世界模型是一個持續(xù)的過程,我們從去年就開始了對這一技術(shù)初始能力的探索。去年,OpenAI發(fā)布Sora功能后,大家開始對視頻生成產(chǎn)生極大的興趣,但當時我們發(fā)現(xiàn),大家做視頻生成,集中于單相機的、偏娛樂性質(zhì)的視頻,而這些在很多情況下不符合世界3D規(guī)律。為了實現(xiàn)這一目的,我們提出時空可控的視頻生成技術(shù),該技術(shù)的其中一個好處是,它可以將真實世界3D信號控制信息,例如,大模型可以用BEV map表示道路結(jié)構(gòu)輸入,于是我們可以把控制信號和模擬世界規(guī)律的信號,輸入到一個多模態(tài)大模型中,保證生成視頻和行為信息,而且所生成的視頻不僅可以是單視角的視頻,還能夠生成多個相機的視頻。如有一輛車過來的時候,貫穿正前方、左前方、左后方,以及正后方四個相機的過程中,其顏色、形狀、運行規(guī)律將完全符合真實世界規(guī)律,因此可以保持它的3D一致性。

盤古世界模型問世!華為博士天團答疑如何用4D空間重構(gòu)物理世界

王博士:以我個人理解來說,當我們能夠生成多視角視頻的時候,已經(jīng)說明我們的模型對于整個空間的3D、時間維度,都有了比較好的生成能力。但對于自動駕駛來說,僅僅只生成2D的信息,或者用2D的信息呈現(xiàn)是遠遠不夠的。因為激光傳感器是自動駕駛中非常重要的組件,所以很多自動駕駛的算法需要3D信息做感知。在此基礎(chǔ)上,我們今年又增加了激光生成能力,也可以理解成,我們從去年的2D能力,提升到了三維,后續(xù)我們會更進一步,將它延展到4D空間的生成。

GenJi:插入一個相對業(yè)余的問題,STCG是什么的縮寫?

金博士:是時間、空間可控的生成。為了實現(xiàn)不同行為的模擬,我們進一步生成4D世界,同時實現(xiàn)實時的、更高速度仿真的過程,我們依然是通過3D控制信號,生成精準的多相機的視頻。下一步,我們將通過生成的視頻,將其變成4D世界,滿足自動駕駛模擬場景要求,并進行不同的場景推演,這個推演便可以對應(yīng)真實的物理世界,加入一個硬件模擬器,以此驗證自動駕駛是否符合真實駕駛的要求。比如,對同樣一個4D世界,輸出不同行為后,將會產(chǎn)生不同的駕駛行為,如實現(xiàn)車輛加減速、左右側(cè)超車等,在我們驗證重要的行為特征之后,獲取到自動駕駛算法期望的結(jié)果后,我們就會認為它通過了測試,便可以進行實車的驗證。

GenJi:我比較好奇在4D中,多出的這個D指代什么?以及在這一方面華為都實現(xiàn)了哪些技術(shù)上的突破創(chuàng)新,又是如何實現(xiàn)這一效果的?

王博士:我們在這里所說的4D,本質(zhì)上是動態(tài)的3D。3D中,我們可以從不同的視角查看數(shù)據(jù)或觀察世界,而4D就是在3D的基礎(chǔ)上增加一些動態(tài),比如時間維度的變化。甚至可能增加一些可控的變化,我們可以認為它是一種交互。這也是我們當前重點想要去做的方向。

從技術(shù)上說,我們業(yè)界主要的路線,包括二維視頻、三維空間生成,但當前它們各自存在不同的缺陷。如可控的視頻生成,可能在3D一致性上比較有限;3D生成,則在動態(tài)能力上比較有限。我們的整體思路,是將視頻生成能力與3D生成能力進行結(jié)合,把它推廣到動態(tài)空間生成的能力上??梢钥吹剑覀冊谶@個邏輯上有兩個路線,第一個是給視頻生成增加一個顯示的3D表征。另外一個是在3D基礎(chǔ)上,利用視頻生成做一個動態(tài)模型的生成或者編輯,這兩個路線我們都有在進行探索。

GenJi:在整套技術(shù)里面,還有哪些會在未來改進或者完善的地方?

王博士:首先,當前我們只能生成較為局部的動態(tài);其次,我們生成的動態(tài)持續(xù)時間相對較短,可以總結(jié)為動態(tài)的范圍小、時間短,這是后續(xù)比較重要的發(fā)展方向;此外,我們的動態(tài)是利用視頻生成模型生成出來的,它對于物理的理解,可能還有待改進。因而,我們后面可以基于仿真引擎引入顯示的物理知識,從而使我們生成的動態(tài)內(nèi)容更加符合物理規(guī)律。

GenJi:請問兩位在未來發(fā)展趨勢和脈絡(luò)里,有什么關(guān)于行業(yè)的洞見?

金博士:一方面,從世界模型角度出發(fā),我們會回到大模型發(fā)展歷程中來,之前我們大模型更偏重理解大模型,理解大模型對于理解模態(tài)的輸入較多或較重,但是生成方面比較弱,而生成模型恰好相反,輸入的模態(tài)、信息量較少,但是輸出卻比較大、比較重。所以,目前大家已經(jīng)開始進行初步嘗試將圖像理解和圖像生成做融合,這將是未來技術(shù)上的趨勢。未來,視頻、3/4D理解和生成的統(tǒng)一模型會更有挑戰(zhàn)意義。

另一方面,從大模型底層表示出發(fā),以NLP大語言模型舉例,我們可以將其理解成一個一個token計算生成的過程,其實在3D世界中,我們的3D世界并不是一維信息,所以如果3D世界的時間和空間信息都變成控制信號,它可能會變成3D的token,或者4D的token,如此一來,如何表示3Dtoken、4Dtoken,業(yè)界還沒有較好的辦法,所以大家還是轉(zhuǎn)化為和自然語言對齊的token來表示,這在信息效率和信息壓縮上都有一些損失,因此,找到好的解決方法會是未來的趨勢點。

GenJi:我們發(fā)現(xiàn),現(xiàn)實世界里的物體在真實自然光照環(huán)境下產(chǎn)生的光影關(guān)系,以及主體的一致性,很像您剛才所說,即本質(zhì)上像是把世界都建模好了,所以我們現(xiàn)在不再是一個不斷去創(chuàng)造新畫面的過程,而像是一個攝像頭在現(xiàn)實世界里的穿梭和移動,因為我個人對這類技術(shù)應(yīng)用和發(fā)展有非常多的想象空間,所以也想請教一下兩位在這塊有什么展望?

王博士:我們引入了顯式的3D表示,有顯示的3D空間后,它將從光照到空間結(jié)構(gòu),都有更好的保持。甚至后續(xù)我們還想要讓它實現(xiàn)物理上的引入,它也會有更好的基礎(chǔ)。如果說我們只是從像視頻生成統(tǒng)計性的數(shù)據(jù)來說,可能比較難控制中間的過程。這就是我們當前在這一部分、在這個技術(shù)上的優(yōu)勢。但它同時也帶來很多復(fù)雜的問題,因為3D的表示要比2D的表示更加復(fù)雜。

金博士:這分為兩種路線,一種路線是數(shù)據(jù)驅(qū)動,OpenAI是數(shù)據(jù)驅(qū)動,只通過大量視頻數(shù)據(jù)訓(xùn)練,自動學(xué)習(xí)到物理規(guī)律等;還有一條路線是,我們可以將物理理論、物理公式嵌入到大模型中去。如果我們將兩條路線做一個結(jié)合,既包含物理相應(yīng)的知識,又包含數(shù)據(jù)驅(qū)動的統(tǒng)計規(guī)律,這對未來來說,將會是比較好的方案。

GenJi:這個挺有意思的,把我們高中學(xué)的那些物理公式,融入到現(xiàn)實世界物理的模擬中,比如動量守恒、兩個球碰撞怎么傳遞動量,就能夠通過虛擬世界去實現(xiàn)。

王博士:我們當前的主要技術(shù)路線除了剛才說到的可控視頻生成、3D生成之外,還有類似傳統(tǒng)的仿真引擎的過程,我們從技術(shù)上判斷,這三個方向一定會逐漸的互相融合。比如,仿真引擎里面包含了很多物理的知識,我們將它的結(jié)果或它中間的知識,作為初始引導(dǎo),無論是引導(dǎo)視頻的生成,還是引導(dǎo)空間的生成,都會顯示引入到物理知識,并帶來較大的提升。

GenJi:在現(xiàn)實世界中,就像剛才提到的,我們先去理解世界,再去生成世界,但這個理解世界的過程也是很復(fù)雜的,像太空場景,在我們生活中很難模擬,所以,剛才所提到的這項技術(shù),在未來是否會應(yīng)用到火星探測等全新的太空探索中,做一些數(shù)據(jù)的模擬?畢竟我們很少有機會真的把探測相關(guān)的設(shè)備放到太空中去。

金博士:其實我們做這件事的初衷像你所說的一樣,我們在做火星探測的時候,不可能采集到大量火星真實的數(shù)據(jù),但比如說我們自動化的設(shè)備,需要驗證在火星或是月球真實環(huán)境是否有效、是否真正發(fā)揮作用,我們只能通過幾張圖像,做出我們認為的三維世界,將待驗證設(shè)備放到3D世界里面去,所以將這些物理設(shè)備進行3D交互,驗證是否符合預(yù)期運行,確實是為了達到這樣的目的而進行的。

盤古世界模型問世!華為博士天團答疑如何用4D空間重構(gòu)物理世界

面對紛繁的現(xiàn)實世界,盤古世界模型可以通過4D空間重構(gòu)出符合物理規(guī)律的新世界,實現(xiàn)虛擬世界與真實世界的交互。未來,這一技術(shù)將會不斷應(yīng)用到自動駕駛、具身等不同領(lǐng)域,賦能更多行業(yè)實現(xiàn)新的突破與躍遷。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )