一句話生成3D世界！Google發(fā)布Genie3，或引爆世界模型大戰(zhàn)？

2025-08-07 10:02

一句話，生成一個(gè)幾分鐘的3D世界。

過(guò)去兩周，大模型圈又熱鬧了起來(lái)。上周阿里在 Qwen 系列上再度加碼，連發(fā)多個(gè)開源模型；這周緊接著，OpenAI 在沉寂五年后首次開放自家語(yǔ)言模型權(quán)重，在北京時(shí)間 8 月 6 日推出 GPTOSS，直接把開源模型的競(jìng)爭(zhēng)推向一個(gè)新的高潮。

這個(gè)時(shí)間節(jié)點(diǎn)很微妙。阿里和 OpenAI 都在圍繞語(yǔ)言模型（LLM）展開競(jìng)爭(zhēng)，基于開源小模型優(yōu)化對(duì)話、推理、生成文本的能力，用更開放的策略爭(zhēng)奪開發(fā)者和生態(tài)。而 Google 的選擇，卻是在同日丟出了一顆不同賽道的「深水炸彈」——通用世界模型 Genie3。

這個(gè)概念在去年 OpenAI 發(fā)布 Sora 時(shí)曾短暫爆紅，當(dāng)時(shí)不少人將 Sora 代表的視頻生成模型看作通向世界模型的必經(jīng)之路，加速 AGI 的實(shí)現(xiàn)。但熱度來(lái)得快，退得也快：類 Sora 視頻生成模型（包括 Google 自家的 Veo 3）終究只是生成視頻，缺乏可導(dǎo)航、可交互的環(huán)境邏輯，也沒(méi)有形成可迭代的生態(tài)，最終讓「世界模型」話題逐漸沉寂。

而 Genie 3 的出現(xiàn)，顯然不只是換個(gè)花哨名字。

它從架構(gòu)上就是為實(shí)時(shí)交互設(shè)計(jì)——可以根據(jù)文本提示生成一個(gè)可持續(xù)幾分鐘的 3D 世界，支持角色移動(dòng)、物體操控、天氣變化等事件，還有持續(xù)一致的視覺(jué)記憶，讓虛擬世界具備「空間連貫性」。同樣很重要的一點(diǎn)是，這類世界模型不僅是炫技的內(nèi)容生成器，更是智能體（AI Agent）訓(xùn)練的天然土壤：

提供可控、低成本、可重復(fù)的仿真環(huán)境，讓智能體在其中學(xué)習(xí)決策與行動(dòng)，而不必依賴昂貴且風(fēng)險(xiǎn)高的真實(shí)測(cè)試場(chǎng)景。

從這幾個(gè)角度看，雷科技認(rèn)為Genie 3 的推出可能不僅是一次技術(shù)路線的差異化突圍，更可能是下一輪 AI 競(jìng)賽的前哨戰(zhàn)——只是，這次的賽場(chǎng)，換成了 AI 生成世界。

一句話，就能生成幾分鐘的 3D 世界

要理解 Genie3 的意義，最直接的方式就是和人們熟悉的兩個(gè)類別作對(duì)比：一類是去年的「現(xiàn)象級(jí)」視頻生成模型 Sora，一類是近兩年在 3D 生成領(lǐng)域不斷迭代的 Hunyuan 3D。

Sora 在去年引發(fā)熱議，原因很簡(jiǎn)單：它能夠生成長(zhǎng)達(dá)一分鐘、細(xì)節(jié)豐富的短視頻，鏡頭切換流暢，光影、材質(zhì)都逼近真實(shí)電影。但它的本質(zhì)依然是視頻生成——一段生成結(jié)果從頭到尾是固定的，用戶不能走進(jìn)視頻里，也不能影響視頻的走向。但類 Sora 模型終究缺乏「可控交互」，你無(wú)法讓視頻中的角色轉(zhuǎn)身看向你，更不能臨時(shí)加一場(chǎng)雨或搬動(dòng)一把椅子。

換句話說(shuō)，Sora 給你的是一部成片，而不是一個(gè)可供探索的世界。但 Genie3 的設(shè)計(jì)目標(biāo)恰好相反，更像是 UE5 這類游戲引擎。

Genie Modelling Physical Properties.gif

片段經(jīng)過(guò)壓縮和加速 2x，圖/ Google

截屏2025-08-06 15.46.50.png

一句 Prompt 就能生成，圖/ Google

Genie3 生成的是可導(dǎo)航、可交互的虛擬物理環(huán)境，支持持續(xù)幾分鐘的 720p 實(shí)時(shí)渲染，并且環(huán)境內(nèi)的細(xì)節(jié)會(huì)被記錄——你離開一個(gè)房間再回來(lái)，墻上的涂漆還在原位，或者桌上的書依舊保持之前的翻開狀態(tài)。

Genie Environmental Consistency (1).gif

片段經(jīng)過(guò)壓縮和加速 2x，圖/ Google

按照 Google DeepMind 的介紹，Genie 3 環(huán)境在幾分鐘內(nèi)仍然保持高度一致性，視覺(jué)記憶可以回溯到一分鐘之前。這種視覺(jué)記憶機(jī)制也是 Genie 3 的底層亮點(diǎn)之一，讓生成世界具備「空間連貫性」，為交互帶來(lái)沉浸感。

此外，Genie3 還支持 promptable world events，也就是通過(guò)新的提示動(dòng)態(tài)改變世界——可以隨時(shí)切換晴天和暴雨，增加一只貓，或者將熊換成騎馬的人，這些變化會(huì)在世界中持續(xù)生效。它不僅能「生成」，還能「更新」，這為開放式探索和游戲化交互提供了可能。

片段經(jīng)過(guò)壓縮和加速 2x，圖/ Google

騰訊的 Hunyuan 3D 系列在 3D 資產(chǎn)生成領(lǐng)域的質(zhì)量和速度都有口碑。7 月最新發(fā)布的 Hunyuan3DPolyGen 據(jù)稱布線精度更高，細(xì)節(jié)更豐富，同時(shí)支持三邊面和四邊面，方便導(dǎo)入游戲引擎或 3D 渲染流程。這類模型生成的優(yōu)勢(shì)是細(xì)節(jié)豐富、貼圖精準(zhǔn)，非常適合資產(chǎn)制作、動(dòng)畫或工業(yè)設(shè)計(jì)，但生成的只是一個(gè)個(gè)靜態(tài)的 3D 對(duì)象。

混元 3D 生成的模型，圖/騰訊

Genie3 則走向了另一個(gè)方向。它不是生成一個(gè)孤立的模型，而是構(gòu)建一個(gè)可持續(xù)運(yùn)行的動(dòng)態(tài)物理環(huán)境，這個(gè)環(huán)境本身可以作為智能體（AI Agent）訓(xùn)練的沙箱：機(jī)器人可以在其中測(cè)試路徑規(guī)劃，無(wú)人車可以模擬避障，游戲 NPC 可以演練對(duì)話與任務(wù)邏輯。

更關(guān)鍵的是，這種環(huán)境是可重復(fù)、可控且低成本的，不需要真實(shí)場(chǎng)景的物理限制和安全風(fēng)險(xiǎn)。

不過(guò) Google DeepMind 團(tuán)隊(duì)也指出了 Genie 3 目前的局限性，比如盡管支持在同一世界下的修改，但實(shí)際支持的動(dòng)作范圍受限。還有智能體的交互訓(xùn)練，本身多個(gè)智能體之間的復(fù)雜交互就是一個(gè)尚待突破的技術(shù)挑戰(zhàn)，Genie 3 目前而言更多是有了這種潛力。

此外，考慮到 Genie 1 發(fā)布時(shí)還只支持 2D 交互，Genie 2 去年底發(fā)布的時(shí)候，僅僅支持最高 20 秒的 3D 交互，Genie 3 的出現(xiàn)毫無(wú)疑問(wèn)是一次巨大的進(jìn)步，也從側(cè)面反映了世界模型的進(jìn)步速度。

「世界模型」叫好不叫座，Genie3 會(huì)是拐點(diǎn)嗎？

「世界模型」這個(gè)詞在 AI 圈的高光時(shí)刻，要追溯到 2024 年初。彼時(shí) OpenAI 推出的視頻生成模型 Sora，不僅在技術(shù)演示上驚艷四座，還被一些業(yè)內(nèi)人士解讀為通向世界模型的「前奏」。原因很直接：它能生成長(zhǎng)時(shí)視頻、具備一定的物理一致性，看起來(lái)像是在為未來(lái)可交互的虛擬環(huán)境做準(zhǔn)備。

那段時(shí)間，充斥著「世界模型是通用人工智能（AGI）的必經(jīng)之路」的各種分析和報(bào)道，普遍認(rèn)為未來(lái) AI 會(huì)先在虛擬世界學(xué)會(huì)一切再走向現(xiàn)實(shí)，熱度甚至一度超過(guò)了同期的大語(yǔ)言模型升級(jí)消息。然而，這股熱潮很快就退去。

這就是 Genie3 登場(chǎng)的背景：一個(gè)技術(shù)潛力巨大、但話題度和資源支持都已經(jīng)降溫的領(lǐng)域。它的不同之處在于，不再停留在「視頻生成」的階段，而是真正進(jìn)入了「可交互 3D 世界」的范疇——幾分鐘的持續(xù)渲染、可控事件觸發(fā)、視覺(jué)記憶保持一致，這些特性直接回應(yīng)了過(guò)去一年里技術(shù)難以跨越的門檻。

那么，Genie3 會(huì)不會(huì)成為世界模型由「冷」轉(zhuǎn)「熱」的拐點(diǎn)？

Genie Modelling Animation 4.gif

片段經(jīng)過(guò)壓縮和加速 2x，圖/ Google

從積極面看，它至少提供了一個(gè)現(xiàn)實(shí)可感的范例：世界模型不僅是研究論文里的設(shè)想，也可以以產(chǎn)品原型的形式存在，并且能服務(wù)于具體任務(wù)——無(wú)論是智能體訓(xùn)練、虛擬仿真，還是未來(lái)的沉浸式內(nèi)容創(chuàng)作。這為行業(yè)提供了新的敘事素材，也可能吸引資本重新評(píng)估這一方向的商業(yè)潛力。

但要開啟真正的競(jìng)爭(zhēng)，還需要幾個(gè)條件：

一是更多參與者進(jìn)入，讓世界模型不只是 Google 一家的技術(shù)嘗試；

二是開放或半開放的生態(tài)，使外部開發(fā)者能夠基于模型構(gòu)建應(yīng)用，推動(dòng)迭代；

三是找到明確的落地場(chǎng)景，哪怕是細(xì)分市場(chǎng)的高價(jià)值應(yīng)用，也能讓技術(shù)驗(yàn)證與商業(yè)閉環(huán)相互促進(jìn)。

不過(guò)目前可以肯定的是，Genie3 把「世界模型」再一次擺回了技術(shù)輿論場(chǎng)的中心。世界模型會(huì)快速形成百家爭(zhēng)鳴的格局？還是會(huì)像 Sora 的影響那樣，在短暫熱度后再次沉寂？這不僅取決于技術(shù)的迭代速度，也取決于整個(gè) AI 行業(yè)是否已經(jīng)準(zhǔn)備好接受一個(gè)新的主戰(zhàn)場(chǎng)。

寫在最后

從阿里、OpenAI 在語(yǔ)言模型賽道上的連番出招，到 Google 用 Genie3 打開另一扇通向未來(lái)的門，這幾周的 AI 行業(yè)競(jìng)爭(zhēng)像極了一場(chǎng)多線作戰(zhàn)的拉鋸戰(zhàn)。不同于 LLM 的能力比拼與開源策略，Genie3 把焦點(diǎn)放在了「可交互世界」的構(gòu)建上，用幾分鐘持續(xù)渲染、可控事件和視覺(jué)記憶，為世界模型的可用性邁出了關(guān)鍵一步。

它未必會(huì)立刻引爆新的產(chǎn)業(yè)熱潮，但至少證明了世界模型已經(jīng)進(jìn)入了一個(gè)新的階段。對(duì)于智能體訓(xùn)練、虛擬仿真乃至沉浸式內(nèi)容創(chuàng)作，這都意味著全新的可能性。接下來(lái)，能否吸引更多參與者、形成開放生態(tài)、找到清晰的落地場(chǎng)景，將決定這條賽道是短暫回溫，還是真正走向繁榮。

這場(chǎng)世界模型的比賽，才剛剛鳴槍。

來(lái)源：雷科技

本文圖片來(lái)自：123RF 正版圖庫(kù) 來(lái)源：雷科技

原文標(biāo)題 : 一句話生成3D世界！Google發(fā)布Genie3，或引爆世界模型大戰(zhàn)？