訂閱
糾錯(cuò)
加入自媒體

騰訊混元3D模型1.0開源,背后隱藏了哪些商業(yè)秘密?

圖片

2025年7月,上海世界人工智能大會(huì)(WAIC)的聚光燈下,騰訊拋出了一枚重磅炸彈:混元3D世界模型1.0(混元3D世界模型1.0)正式發(fā)布,并旋即宣布全面開源。

這并非又一個(gè)“文生視頻”式的技術(shù)炫技,而是一個(gè)能用一句話、一張圖在幾分鐘內(nèi)生成可漫游、可交互、可編輯的完整3D世界的龐然大物。

有人驚呼,這是“生成式AI領(lǐng)域的Minecraft”,但這個(gè)比喻或許還不夠精準(zhǔn)。它更像是一套完整的創(chuàng)世工具,將過(guò)去專屬于頂尖游戲工作室和CG團(tuán)隊(duì)的“世界構(gòu)建”能力,以一種前所未有的方式向全球開發(fā)者開放。

當(dāng)一個(gè)行業(yè)巨頭選擇將如此核心的技術(shù)“公之于眾”,我們不能僅僅滿足于驚嘆其生成效果的酷炫。這背后必然隱藏著深思熟慮的技術(shù)路線選擇和環(huán)環(huán)相扣的商業(yè)戰(zhàn)略布局。

一、從“生成萬(wàn)物”到“創(chuàng)造世界”

作為此次發(fā)布的亮點(diǎn)之一,騰訊混元3D世界模型1.0融合了全景視覺生成與分層3D重建技術(shù),同時(shí)支持文字和圖片輸入,實(shí)現(xiàn)了高質(zhì)量、風(fēng)格多樣的可漫游3D場(chǎng)景生成。

過(guò)去需要專業(yè)建模團(tuán)隊(duì)數(shù)周才能搭建的3D虛擬世界,現(xiàn)在只需一句文字或一張圖片,幾分鐘內(nèi)即可生成。

實(shí)現(xiàn)“世界生成”面臨兩大技術(shù)困境:純3D訓(xùn)練數(shù)據(jù)稀缺且昂貴;3D表征的計(jì)算和內(nèi)存開銷巨大。直接在3D空間進(jìn)行暴力生成,目前來(lái)看既不經(jīng)濟(jì)也不高效。

對(duì)此,混元團(tuán)隊(duì)采取了一種極為務(wù)實(shí)的融合方案,其技術(shù)架構(gòu)可以概括為一個(gè)巧妙的“兩階段”生成范式。

第一階段:3D世界的壓縮與表征(3D-aware VAE)

首先,模型需要學(xué)習(xí)如何“理解”一個(gè)3D世界。研究團(tuán)隊(duì)訓(xùn)練了一個(gè)特制的3D感知變分自編碼器(3D-aware Variational Autoencoder, VAE)。

這個(gè)VAE的任務(wù)是將海量、高精度、結(jié)構(gòu)復(fù)雜的3D場(chǎng)景數(shù)據(jù),編碼(壓縮)成一個(gè)維度低得多但信息量密集的潛在空間(Latent Space)表征。

這個(gè)過(guò)程好比是將一本厚重的百科全書提煉成幾頁(yè)精準(zhǔn)的摘要。

這個(gè)“摘要”(即潛在編碼)保留了原始3D世界最核心的幾何、紋理和風(fēng)格信息,為后續(xù)的生成步驟奠定了堅(jiān)實(shí)的基礎(chǔ)。

第二階段:在潛在空間中擴(kuò)散生成(Diffusion Transformer)

當(dāng)擁有了一個(gè)高質(zhì)量的潛在空間后,真正的“創(chuàng)造”過(guò)程便開始了。

研究團(tuán)隊(duì)在這一潛在空間上,訓(xùn)練了一個(gè)當(dāng)前生成領(lǐng)域最前沿的擴(kuò)散模型(Diffusion Model),并且其骨干網(wǎng)絡(luò)采用了強(qiáng)大的Transformer架構(gòu)(即DiT, Diffusion Transformer)。

其工作原理可以通俗地理解為“從混沌到有序的雕琢”。模型從一個(gè)完全隨機(jī)的噪聲潛在編碼開始,在文本或圖像提示的語(yǔ)義引導(dǎo)下,通過(guò)多步“去噪”過(guò)程,逐步將這個(gè)隨機(jī)噪聲雕琢成一個(gè)有意義、符合用戶要求的、全新的3D世界潛在編碼。

最后,這個(gè)由DiT生成的新潛在編碼,會(huì)被送入第一階段VAE的解碼器中,由解碼器將其“解壓”還原,最終構(gòu)建出用戶所見的完整、具體的3D世界。

更值得一提的是,混元3D世界模型1.0最令人興奮的,并非僅僅是生成世界的視覺效果,還有其三大特性,這標(biāo)志著AI生成內(nèi)容從“展示品”向“生產(chǎn)力工具”的決定性轉(zhuǎn)變。

可漫游:生成的場(chǎng)景不是一個(gè)只能原地旋轉(zhuǎn)觀看的“天空盒”,用戶可以通過(guò)鍵盤和鼠標(biāo)在其中自由移動(dòng)。這為游戲原型、VR體驗(yàn)和虛擬旅游等應(yīng)用提供了基礎(chǔ)。

可編輯:得益于語(yǔ)義分層技術(shù),場(chǎng)景中的前景物體與背景是分離的。開發(fā)者可以將生成的標(biāo)準(zhǔn)3D網(wǎng)格文件導(dǎo)入U(xiǎn)nity、Unreal Engine或Blender等主流軟件中,對(duì)單個(gè)物體進(jìn)行移動(dòng)、縮放、替換,甚至刪除,實(shí)現(xiàn)了AIGC內(nèi)容與傳統(tǒng)CG工作流的無(wú)縫銜接。

可仿真:這是其最深遠(yuǎn)的潛力之一。由于場(chǎng)景中的物體是獨(dú)立的3D資產(chǎn),開發(fā)者可以為它們賦予物理屬性,進(jìn)行動(dòng)力學(xué)仿真。這意味著,生成的不僅是一個(gè)靜態(tài)布景,更可以是一個(gè)能夠響應(yīng)物理規(guī)律的微型世界。

這三大特性共同指向一個(gè)核心價(jià)值:工業(yè)級(jí)可用性。

騰訊的目標(biāo)顯然不是做一個(gè)玩具,而是要打造一個(gè)能被內(nèi)容創(chuàng)作者真正集成到生產(chǎn)管線中的強(qiáng)大工具。

圖片(生成界面演示:生成3D場(chǎng)景資產(chǎn)可二次編輯)

二、開源的“陽(yáng)謀”:騰訊AI生態(tài)的戰(zhàn)略拼圖

發(fā)布即開源,對(duì)于一款如此重量級(jí)的模型而言,無(wú)疑是一次大膽的戰(zhàn)略宣言。要理解騰訊此舉的深意,必須將其置于其更宏大的AI戰(zhàn)略藍(lán)圖中進(jìn)行審視。

WAIC現(xiàn)場(chǎng),騰訊首次完整展示了其“1+3+N”的AI應(yīng)用全景圖。

“1”個(gè)核心引擎:以騰訊自研的混元大模型為基礎(chǔ)。

“3”類平臺(tái)能力:分別面向C端用戶的智能體平臺(tái)“騰訊元器”、面向B端企業(yè)的“騰訊云智能體開發(fā)平臺(tái)”,以及面向機(jī)器人行業(yè)的具身智能開放平臺(tái)“Tairos(鈦螺絲)”。

“N”個(gè)應(yīng)用矩陣:覆蓋辦公、生活、企業(yè)服務(wù)等場(chǎng)景的AI智能體,以及深度融合AI能力的微信、QQ、騰訊游戲等生態(tài)產(chǎn)品。

在這個(gè)體系中,混元3D世界模型1.0扮演的角色遠(yuǎn)不止一個(gè)模型。它是“1”中多模態(tài)能力的巔峰體現(xiàn),更是賦能“3”和“N”的關(guān)鍵基礎(chǔ)設(shè)施。

對(duì)于游戲,它能極大縮短場(chǎng)景搭建周期;對(duì)于具身智能,它能提供低成本、高效率的物理仿真環(huán)境;對(duì)于C端應(yīng)用,它可以為VR/AR社交、虛擬空間體驗(yàn)提供源源不斷的內(nèi)容。

圖片(物理仿真應(yīng)用展示)

騰訊的開源,并非純粹的“為愛發(fā)電”,而是一種更高維度的商業(yè)競(jìng)爭(zhēng)策略。

首先是搶占標(biāo)準(zhǔn),定義未來(lái)。

在3D AIGC技術(shù)爆發(fā)的前夜,誰(shuí)能提供最易用、最強(qiáng)大的開源工具鏈,誰(shuí)就能定義這個(gè)領(lǐng)域的“游戲規(guī)則”。通過(guò)開源,騰訊希望讓混元3D世界模型1.0的架構(gòu)、數(shù)據(jù)格式和工作流成為事實(shí)上的行業(yè)標(biāo)準(zhǔn),吸引全球開發(fā)者圍繞其進(jìn)行創(chuàng)作和創(chuàng)新。

其次是生態(tài)賦能,流量反哺。

騰訊的核心優(yōu)勢(shì)在于其龐大的應(yīng)用生態(tài),尤其是游戲和社交。通過(guò)免費(fèi)提供強(qiáng)大的3D世界生成工具,可以極大地激發(fā)中小開發(fā)者和內(nèi)容創(chuàng)作者的活力。

這些開發(fā)者用騰訊的工具創(chuàng)造出的內(nèi)容,最容易、也最自然地會(huì)發(fā)布到騰訊的平臺(tái)(如微信小游戲、QQ頻道、VR應(yīng)用商店等),從而反哺和繁榮其主營(yíng)業(yè)務(wù)。顯然,這是一種“授人以漁,共建魚塘”的策略。

第三是社區(qū)驅(qū)動(dòng),加速迭代。

開源能夠匯聚全球開發(fā)者的智慧。社區(qū)的力量可以幫助模型更快地發(fā)現(xiàn)問(wèn)題、修復(fù)bug、開發(fā)插件、拓展應(yīng)用場(chǎng)景,從而以遠(yuǎn)超閉源團(tuán)隊(duì)的速度進(jìn)行迭代。這在技術(shù)日新月異的AI領(lǐng)域至關(guān)重要。

最后是降低門檻,激活產(chǎn)業(yè)。

3D內(nèi)容創(chuàng)作的高門檻一直是行業(yè)痛點(diǎn);煸3D世界模型1.0的開源,讓一個(gè)獨(dú)立游戲開發(fā)者或小型工作室,也能擁有接近大廠的場(chǎng)景生成能力。這將催生出大量過(guò)去因成本問(wèn)題而無(wú)法實(shí)現(xiàn)的游戲和應(yīng)用,從而做大整個(gè)3D內(nèi)容產(chǎn)業(yè)的蛋糕,而作為平臺(tái)方的騰訊,自然能從中受益。

三、在開放與封閉之間,騰訊的選擇

放眼全球,AI巨頭們?cè)谀P筒呗陨下窂讲灰弧?/p>

OpenAI的GPT系列和Sora走向了高度封閉的商業(yè)模式,通過(guò)API調(diào)用獲利;Meta的Llama系列則堅(jiān)定地選擇了開源路線,試圖通過(guò)開放社區(qū)挑戰(zhàn)OpenAI的領(lǐng)先地位。

騰訊此次在3D世界模型上的選擇,顯然更貼近Meta的哲學(xué),但又帶有自身獨(dú)特的“騰訊特色”。

與純粹的技術(shù)公司不同,騰訊擁有強(qiáng)大的內(nèi)容分發(fā)渠道和應(yīng)用場(chǎng)景。它的開源戰(zhàn)略,不僅僅是為了推動(dòng)技術(shù)本身,更是為了武裝其龐大的生態(tài)軍團(tuán)。這使得它的開源比其他公司多了一層產(chǎn)銷一體的閉環(huán)邏輯。

當(dāng)開發(fā)者使用混元工具創(chuàng)造出精彩的VR世界時(shí),他們會(huì)發(fā)現(xiàn),將其一鍵發(fā)布到與騰訊合作的VR平臺(tái)是最便捷的選擇。這種無(wú)縫銜接,正是騰訊希望構(gòu)建的、難以被復(fù)制的生態(tài)壁壘。

我們看來(lái),騰訊混元3D世界模型1.0的發(fā)布與開源,其意義遠(yuǎn)超一次技術(shù)展示。它是一次精心布局的戰(zhàn)略落子,旨在通過(guò)解放3D內(nèi)容生產(chǎn)力,來(lái)重塑整個(gè)數(shù)字內(nèi)容生態(tài)的格局。

通過(guò)將最前沿的創(chuàng)世工具交到全球開發(fā)者手中,騰訊不僅是在展示自己的技術(shù)肌肉,更是在邀請(qǐng)全世界的創(chuàng)造者,共同來(lái)填充和繁榮它龐大的應(yīng)用宇宙。

這場(chǎng)由AI驅(qū)動(dòng)的3D內(nèi)容革命已經(jīng)拉開序幕。它或許不會(huì)立刻顛覆一切,但它已經(jīng)為游戲開發(fā)者、VR夢(mèng)想家、數(shù)字藝術(shù)家們打開了一扇通往新世界的大門。

正如騰訊所期望的,一個(gè)“好用的AI”正在從遙遠(yuǎn)的技術(shù)地平線,加速來(lái)到我們身邊,而這一次,它帶來(lái)的,是創(chuàng)造整個(gè)世界的力量。

-END-

來(lái)源:@首席數(shù)智官

       原文標(biāo)題 : 騰訊混元3D模型1.0開源,背后隱藏了哪些商業(yè)秘密?

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)