Roblox发布3D智能基础模型Cube,一句话生成游戏资产

2025年03月22日19:12:02 科技 1019



Roblox,这个备受青少年喜爱的在线游戏平台,正通过引入 AI 技术,进一步革新游戏的创作体验。 据了解,曾获选“儿童票选奖最受欢迎游戏”的 Roblox 允许用户设计自己的游戏、物品及衣服,以及游玩自己和其他开发者创建的各种不同类型的游戏。 而现在,用户可以借助 AI 来完成这些创作了。


近日,Roblox 发布了一个用于 3D 智能的基础模型 Cude。据介绍,Roblox 的目标是构建一个可以生成 Roblox 游戏各方面体验的 3D 智能基础模型,从生成 3D 物体和场景到人物角色,再到描述事物行为的编程脚本。

Roblox发布3D智能基础模型Cube,一句话生成游戏资产 - 天天要闻
Roblox 创始人兼 CEO David Baszucki 的推文

Roblox发布3D智能基础模型Cube,一句话生成游戏资产 - 天天要闻

Roblox 还在 Hugging Face 上线了一个 Web 应用,也已经有不少网友分享了他们各自的生成结果。这里我们也来尝试一番。

首先,让 Cude 生成一个三头六臂的男孩(a boy with 3 heads and 6 arms):

Roblox发布3D智能基础模型Cube,一句话生成游戏资产 - 天天要闻

这和我们常见的哪吒形态可真是相去甚远。下面再来个更加日常一些的事物:一台老式打字机(An old-fashioned typewriter)。

Roblox发布3D智能基础模型Cube,一句话生成游戏资产 - 天天要闻

这一次 Cube 的表现就好多了。多次尝试后,我们发现,Cube 的整体效果目前还只能说是一般 —— 在生成日常可见的事物表现会好一点,略微超出常识的东西都会让它给出与指令不符的结果,比如让它生成一只手叉腰站立的猫(A cat standing with hands on hips)。

Roblox发布3D智能基础模型Cube,一句话生成游戏资产 - 天天要闻

下面我们就来具体看看 Roblox 的这项研究。

Roblox发布3D智能基础模型Cube,一句话生成游戏资产 - 天天要闻

  • 论文标题:Cube: A Roblox View of 3D Intelligence
  • 论文地址:https://arxiv.org/pdf/2503.15475
  • 项目地址:https://github.com/Roblox/cube
  • 试用链接:https://huggingface.co/spaces/Roblox/cube3d-interactive

作为一家游戏公司,Roblox 开发这个 3D 智能基础模型的动机非常明显。

他们表示:“我们将此模型设想为各种协作助手的基础 —— 可以帮助开发者创造 Roblox 体验的各个方面,从创建单个 3D 对象(例如,制作带翅膀的摩托车)到完整的 3D 场景布局(例如,创建一个未来风格云朵城市),再到穿戴装备的人物角色(例如,生成一个能够进行墙壁跳跃的外星忍者)到描述对象行为、交互和游戏逻辑的脚本(例如,当玩家靠近门并携带金钥匙时,让门打开)。”

基于这些设想,他们首先确立了三个核心设计要求:

  • 能从稀疏的多模态数据中联合学习;
  • 可通过自回归模型处理无界的输入 / 输出大小;
  • 能通过多模态输入 / 输出与人类和其他 AI 系统协作。

当然,理想虽然很丰满,甚至涉及到“元宇宙”等概念,但现实的路还是得一步步地走。这一次发布的 Cube 模型是 Roblox 向 3D 智能基础模型迈出的第一步。

具体来说,他们关注的核心是 3D 形状的 token 化——毕竟几何形状应该是这个基础模型的核心数据类型。

他们的研究表明,新提出的 token 化方案可以用来构建多种应用,包括文本到形状生成、形状到文本生成和文本到场景生成,如图 1 和 2 所示。

Roblox发布3D智能基础模型Cube,一句话生成游戏资产 - 天天要闻


Roblox发布3D智能基础模型Cube,一句话生成游戏资产 - 天天要闻

形状 token 化

为了忠实地捕捉各种几何特性,包括光滑的表面、锐利的边缘、高频细节,需要一种具有足够表现力的 3D 几何表示,其可用作多模态自回归序列模型的输入和输出 token。

立足于这样的需求,Roblox 从 3DShape2VecSet 等连续形状表示开始,并将其调整为离散 token,以实现对跨模态的输入和输出的原生处理 —— 类似于 Chameleon 等混合模态基础模型。

如图 3 所示,Cube 的高层架构采用了编码器 - 解码器设计,其会将输入的 3D mesh 编码成一种隐含表征,而这种隐含表征之后又可被解码成一种隐式占用场(implicit occupancy field)。

Roblox发布3D智能基础模型Cube,一句话生成游戏资产 - 天天要闻

其中一个关键区别在于会通过一个额外的向量量化过程来离散化这个连续的隐含表征,而由于其不可微分的性质,这又会带来额外的难题。

为此,他们提出了两种技术:随机梯度捷径和自监督隐含空间正则化。

他们还提出了另一项架构改进:使用相位调制位置编码。其作用是能提高基于感知器的 Transformer 在交叉注意力层中为空间不同点消歧的能力。

该团队表示:“这些架构变化使我们训练出的形状 token 化器可以忠实地捕捉各种形状,同时产生适合用于训练基于 token 的混合模态基础模型的离散 token。”

相位调制位置编码

为了将形状编码成一个紧凑的隐含表示,研究者首先从其表面采样 _ 个点以创建一个点云 P。先前的工作在使用 transformer 网络处理 P 之前,通过正弦位置编码函数 (・) 对其进行嵌入:

Roblox发布3D智能基础模型Cube,一句话生成游戏资产 - 天天要闻

其中 () 分别应用于 P 中三个坐标通道 ∈ [, , ] 的每一个,且 _ = 2⌊/2⌋, _ = /2 ( mod 2),对于 = 1,・・・,,其中 是基频的数量。

(・) 函数的周期性特性导致在空间中相隔 2/_整数倍的点会在第个通道中被映射为相同的编码。这一现象使得空间上相距较远的点可能会映射到相似的嵌入向量(图 4a),而这些向量在经过交叉注意力层的点积运算后难以被有效区分。由于嵌入无法区分空间上相距较远的点,相应地,也无法区分不同形状表面的特征,最终导致形状重建质量下降。

Roblox发布3D智能基础模型Cube,一句话生成游戏资产 - 天天要闻

为了解决这个问题,需要一种新型技术来编码点,使其不仅能像传统位置编码那样捕获多尺度特征,还能在点积注意力机制中保持空间上相距较远的点的区分性。研究者从相位调制技术中汲取灵感,提出了相位调制位置编码 (PMPE)。PMPE 在所有正弦函数上调制相位偏移,并使用嵌入函数_PM,定义为:

Roblox发布3D智能基础模型Cube,一句话生成游戏资产 - 天天要闻

其中() 是传统的编码函数,是控制通道间相位变化率的超参数。这里的 ()(1-/) 项用于改变基频,以避免() 和′() 之间的共振。

与使用指数增长频率来捕获多尺度特征的() 不同,′() 对每个通道使用相同的频率/2,但通过的非线性函数来改变相位偏移′。这种非线性相位调制确保了空间上相距较远的点在映射到嵌入空间时保持区分性,如图 4b 所示。

实验表明,PMPE 显著提高了重建保真度,特别是对于复杂的几何细节。PMPE 还减少了例如色斑 (disco) 等伪影的产生。

用于梯度稳定化的随机线性捷径

在将输入形状编码为连续隐向量后,研究者采用最优传输 VQ(optimal transport VQ)将隐向量转换为离散 token 序列。由于 VQ-VAE 中的量化层涉及不可微分的码本嵌入(codebook embedding)分配,可能导致训练不稳定。

研究者引入了额外的线性捷径层,可随机跳过整个量化瓶颈。他们以 50% 概率通过线性层投影编码器的隐向量,直接输入解码器。这与直接捷径(direct shortcut)方法不同,后者使用恒等层而非线性层,实验证明表现不佳。

额外的线性层使捷径路径能作为量化路径的教师网络,防止陷入局部最小值。实验证明这种方法可降低训练和验证损失,并能提高训练稳定性。

通过自监督损失学习几何聚类的隐含表示

借鉴视觉模型研究,该研究采用自监督损失来正则化隐含空间,使相似形状产生接近的隐向量,图 5 展示了该编码器的自监督学习流程。研究者维护了编码器的指数移动平均版本作为教师模型,学生编码器接收掩码输入,教师编码器访问完整查询集。

Roblox发布3D智能基础模型Cube,一句话生成游戏资产 - 天天要闻

两个编码器使用额外 MLP 头生成“原型分数(prototype scores)”,自监督损失是这些分数间的交叉熵,通过 λ_SSL 平衡与重建损失的关系。这使几何相似形状能编码为高余弦相似度的隐向量。

如图 6 所示,将几何相似形状编码为具有高余弦相似度的隐向量的能力自然地从额外的自监督损失中产生。研究者预计这一特性将对广泛的形状处理应用证明其价值。

Roblox发布3D智能基础模型Cube,一句话生成游戏资产 - 天天要闻

实验

架构详情

该模型使用结构相似的编码器 (13 层) 和解码器 (24 层) Transformer,每层宽度 768,共 12 个注意力头,总参数量 2.73 亿。使用 512 个隐含编码 token,16,384 大小的码本,嵌入维度 32。PMPE 参数 β = 0.125,自监督损失 λ_SSL = 0.0005。VQ 层采用 OptVQ 变体,集成最优传输方法。

训练数据

研究在约 150 万个 3D 物体资产上训练模型,包括 Objaverse 等公开数据集和 Roblox Creator Store 资产。所有资产归一化至 [-1,1] 范围内,训练时在表面采样 8,192 点用于输入编码,额外采样 8,192 点计算占用损失(occupancy loss)。

模型比较

研究比较了离散形状 tokenizer 与一种连续变体,并与 CraftsMan(在 17 万物体上训练)进行对比。在 Toys4K 数据集上评估表面交并比(S-IoU)和体积交并比(V-IoU)表明,该研究的 VQ-VAE 模型和连续变体均优于 CraftsMan,但连续变体仍优于离散模型,表明向量量化过程存在几何保真度损失。

如表 1 和图 7 所示,该研究提出的 VQ-VAE 模型(Ours-VQ)和连续变体(Ours-KL)在 S-IoU 和 V-IoU 指标上均优于 CraftsMan。连续变体仍然优于其对应的离散模型,这表明通过向量量化过程仍然存在一些几何保真度的损失。研究团队计划在未来的工作中弥合这一差距。

Roblox发布3D智能基础模型Cube,一句话生成游戏资产 - 天天要闻

Roblox发布3D智能基础模型Cube,一句话生成游戏资产 - 天天要闻

最后,Roblox 在论文中展示了一些具体的应用,包括文本到形状生成、形状到文本生成和文本到场景生成:

Roblox发布3D智能基础模型Cube,一句话生成游戏资产 - 天天要闻

Roblox发布3D智能基础模型Cube,一句话生成游戏资产 - 天天要闻

Roblox发布3D智能基础模型Cube,一句话生成游戏资产 - 天天要闻

Roblox发布3D智能基础模型Cube,一句话生成游戏资产 - 天天要闻

更多详情请前往原论文一探究竟。


科技分类资讯推荐

模拟驾驶、真机飞行、火箭升空、户外挑战…今年暑假,一起去航空飞行造梦! - 天天要闻

模拟驾驶、真机飞行、火箭升空、户外挑战…今年暑假,一起去航空飞行造梦!

当火箭的尾焰划破夜空星辰与大海的梦想再次照亮了我们的征途·中国航天2024年交出一张张硕果累累的成绩单全年累计发射运载火箭68次发射次数创历史新高杭州日报航空造梦夏令营2024年同样也见证了近千名孩子逐梦寰宇的梦想实现做了六年的经典航空线路收获了营员的满满好评2024年“一箭11星”的最强发射再次印证了中国航天的强...
8.3英寸起,“独树一帜”的小尺寸新机 - 天天要闻

8.3英寸起,“独树一帜”的小尺寸新机

小屏手机潮暂时告一段落,小尺寸平板的舞台已经搭好了。目前,联想已推出拯救者 Y700 四代,接下来红魔、小米、华为也有新机要发。再算上苹果的 iPad mini(A17 Pro),今年的小平板选择会比往年多不少,接下来给大伙简单盘点一下。
75万采购的路由器,网上只卖299?高校回应 - 天天要闻

75万采购的路由器,网上只卖299?高校回应

5月11日,重庆三峡学院发布情况说明:近日我校“防火墙及DNS设备采购项目中标结果”引发网民质疑,学校高度重视,成立专项工作组开展核实。因工作需要,我校需购买网络防火墙及DNS设备,在招标文书中明确提出了需满足的技术标准。2025年5月6日该采购项目完成竞争性谈判,拟中标供应商为丰都县洪正商贸有限公司。5月9日我校...
微星MPG 272URX QD-OLED显示器评测:丝般顺滑的240Hz量子点屏幕 - 天天要闻

微星MPG 272URX QD-OLED显示器评测:丝般顺滑的240Hz量子点屏幕

现在显示器市场的竞争特别激烈,各大厂商都在拼参数和品质,特别是在高端显示器领域,各大品牌不断推出令人惊叹的产品,用来满足玩家和专业用户的需求。作为知名硬件厂商之一,微星近年来在显示器领域表现是很抢眼的。今天和大家分享的是微星MPG 272URX QD-OLED显示器的使用体验。这款产品不仅搭载了QD-OLED技术,还融合了...
华为缺席、小米受挫,4月国产新能源降价潮迈入拐点 - 天天要闻

华为缺席、小米受挫,4月国产新能源降价潮迈入拐点

文 | 数读智车在最新的微博中,雷军直言,“过去一个多月,是创办小米以来最艰难的一段时间。”这也是小米最艰难的时刻。乃至整个国产新能源,都进入了一段冷静期。2025年的北京车展、上海车展,比往年更安静了一些。车主站上特斯拉车顶、周鸿祎站上国产车车顶……这些往常年引起全网轰动的戏码,并没有上演。这似乎是一个...
亿纬锂能商用车电池科技日:8款开源电池新品全面覆盖商用市场 - 天天要闻

亿纬锂能商用车电池科技日:8款开源电池新品全面覆盖商用市场

【环球网科技报道 记者 张阳】2025年5月9日,亿纬锂能首届商用车电池科技日暨开源电池新品发布会在广东惠州举办。会上,亿纬锂能重点阐述了在新能源商用车领域的技术积淀与战略布局,并且集中发布了8款开源电池产品,满足从物流车的微面、轻卡到重卡的短倒、干线再到客车和工程机械的全场景工况需求。亿纬锂能动力营销中心...
绿洲文娱落子郑州!沉浸式剧本杀旗舰店重构娱乐新场景 - 天天要闻

绿洲文娱落子郑州!沉浸式剧本杀旗舰店重构娱乐新场景

2025年5月,中原沉浸娱乐市场迎来里程碑事件——国内知名文娱品牌绿洲文娱宣布其全国战略布局的重要落子“绿洲实景沉浸式演绎剧本杀推理馆”正式进驻郑州国贸360商圈。这座斥资打造的千平方米娱乐综合体以剧场级配置重构沉浸式体验边界,为中原玩家开