TG反波胆足球app-开云kaiyun.com在部件级交融进程中强制履行生物力学不断-TG反波胆足球app
  • 你的位置:TG反波胆足球app > 新闻 > 开云kaiyun.com在部件级交融进程中强制履行生物力学不断-TG反波胆足球app

开云kaiyun.com在部件级交融进程中强制履行生物力学不断-TG反波胆足球app

发布日期:2025-10-06 02:48  点击次数:171

开云kaiyun.com在部件级交融进程中强制履行生物力学不断-TG反波胆足球app

在游戏建造使命室中,动画师常常濒临这么的困扰:为了让脚色能更天然的"走路""转圈",不得不反复微调骨骼或者逐帧手动摆出几十个姿势。

如若只需一句教唆,比如"一个东谈主走两步,然后跳起来",就能自动生成畅通传神的 3D 看成,动画制作的花样将被透彻改写。

为此,北京大学建议了ReMoMask:一种全新的基于检索增强生成的 Text-to-Motion 框架。它是一个集成三项关键改动的长入框架:(1)基于动量的双向文本 - 看成模子,通过动量队伍将负样本的门径与批次大小解耦,权贵提高了跨模态检索精度;(2)语义时空着重力机制,在部件级交融进程中强制履行生物力学不断,放弃异步伪影;(3)RAG- 无分类器劝诱联结轻飘的无要求生成以增强泛化才调。

基于 MoMask 的 RVQ-VAE,ReMoMask 在最少设施内高效生成时辰连贯的看成。

在轨范基准测试上的大量实验标明,ReMoMask 达到了起首进的性能,与之前的 SOTA 方法 RAG-T2M 比较,在 HumanML3D 和 KIT-ML 上别离完满了 3.88% 和 10.97% 的 FID 分数栽植。

ReMoMask 合座架构

东谈主体清醒生成因其鄙俗适用于游戏、电影制作、假造推行和机器东谈主等边界而备受关切。连年来,探讨考虑悉力于合成千般且传神的清醒,以裁减手动动画本钱并栽植骨子创作效劳。传统方法包括两个方针,t2m 模子和 RAG-t2m 模子。

天然传统的 t2m 模子大略生成较为精准的看成,而 RAG-t2m 模子则进一步栽植了生成的看成的千般性,但这两类方法仍然濒临两个中枢挑战(如图 1):

问题一:负样本太少。因为看成检索器是用小批量数据熟悉的,模子见到的"乌有样本"太有限,学到的清楚就不够肃穆。

问题二:信息交融太轻佻。将看成序列冲突化为 1Dtoken,并将文本要求和检索学问平直拼接到 1Dtoken 上,模子没法深度主张翰墨 - 时空 - 检索学问之间的探讨。

△图 1 现存 t2m 方法对比

团队基于以上问题,考虑新的 RAG-t2m 熟悉范式,既能守旧更大限度的负样本,又能完满更强的信息交融机制。

中枢方法

为了同期保证看成的时辰动态和空间结构质地,团队最初通过2D RVQ-VAE 编码器将整段看成量化为二维时空 token map。

生成进程中,从全掩码的二维 token map启动,ReMoMask 使用细粒度双向动量文本 - 看成检索器(Part-Level BMM Retriever)索求探讨的文本与看成特征。

该检索器通过双向动量建模 ( BMM ) 熟悉,从而构建了一个大限度的负样本池,栽植了检索效劳。

这些检索到的特征被输入到掩码 Transformer中,并通过语义时空着重力 ( SSTA ) 交融,完满强语义对都,为中枢看成结构的重建提供携带。

终末,残差 Transformer对看成细节进行精修,生成的隐空间看成向量再通过2D RVQ-VAE 解码器规复为最终的看成序列。

△图 2 ReMoMask 框架图

双向动量建模 ( BMM )

BMM 罗致两套动量编码器,别离选藏两个负样本队伍,用于存放文本和看成的负样本。

在熟悉的每一步,现时小批量样本通过动量编码器编码得到的负样本会被加入队伍,同期最早的样本则从队伍中移除。这么的野心将负样本池的限度与小批量大小解耦,允许对比学习运用更大限度的负样本集。

此外,这两套动量编码器通过对对应的在线编码器进行指数出动平均更新,从而保证负样本在时辰上的一致性和踏实性。

△图 3 BMM 清楚图与伪算法

语义时空着重力 ( SSTA )

语义时空着重力(SSTA)机制区别于以往仅生成一维 token map、残忍重要间空间关联的 VQ 量化方法。SSTA 通过二维 RVQ-VAE 将清醒序列编码为二维 token map,同期捕捉时辰动态特征并团聚空间信息。

在后续的生成阶段,该二维 token map 会被展平,并通过再行界说 Transformer 层中的 Q、K、V 矩阵,与文本镶嵌、检索到的文本特征以及检索到的清醒特征进行交融。

与浅薄的要求拼接花样比较,这一高效的信息交融机制大略在文本劝诱、检索学问、清醒的时辰动态及空间结构之间完满更全面的对都,从而同期栽植生成的精准性与泛化才调。

△图 4 SSTA 清楚图性能与效劳

性能上风

考虑团队在生成和检索两大方进取对方法进行了考证,并在主流基准数据集 HumanML3D 和 KIT-ML 上开展了全面评测。

在看成生成任务中,ReMoMask 框架在 R-Precision 和 FID 等核神思议上均赢得了优异表现:在 HumanML3D 上生成看成的 MM DIST 为 2.865,额外现时先进的传统 T2M 方法;在 KIT-ML 上生成看成的 FID 达到 0.138,优于现存的 SOTA RAG-T2M 方法。

△表 1 看成生成实验 - 实验罢休

在两个检索任务中,R1、R2、R3 规画都赢得了 SOTA 水平,确认 ReMoMask 的跨模态检索才调表现出色。

△表 2 看成 - 文本跨模态检索实验 - 实验罢休

效劳展示

图 5 是 ReMoMask 生成的一些看成示例,不错不雅察到 ReMoMask 生成的看成序列连贯且合乎教唆要求。

△图 5 ReMoMask 生成的看成的可视化效劳

考虑团队还将其 ReMoMask 的可视化效劳与其他主流模子进行比较,并以问卷形态采集了测试参与者的意见。图 6 和图 7 罢休浮现较多的测试者合计 ReMoMask 所生成的看成序列质地较高且合乎文本神情。

△图 6 ReMoMask 与主流模子的可视化效劳对比

△图 7 用户考虑罢休,左图为看成 - 质地用户考虑,右图为文本 - 看成探讨性用户考虑

论文联结:https://arxiv.org/abs/2508.02605

GitHub:https://github.com/AIGeeksGroup/ReMoMask

神情主页:https://aigeeksgroup.github.io/ReMoMask

一键三连「点赞」「转发」「防卫心」

迎接在指摘区留住你的思法!

—  完  —

� � 点亮星标 � �

科技前沿进展逐日见开云kaiyun.com



相关资讯
热点资讯
  • 友情链接:

Powered by TG反波胆足球app @2013-2022 RSS地图 HTML地图