yth2206游艇会打不开 > 新闻动态 >

每一幕皆可控！字节发布多主体视频生成神器，人人皆主角

2025-06-25 00:23:35 171

仅基于一张参考图像，生成主体保持高度一致的视频，多人同台也不串脸！

字节发布多主体视频生成神器—— MAGREF（Masked Guidance for Any ‑ Reference Video Generation）。

比如，爱因斯坦版风驰电掣 ** 摩托，效果 be like：

牛顿纵情挥笔绘制大作：

提供一张图灵的参考图，也能生成动起来的全身视频，人物面貌服饰在每一帧中保持高一致性，不会逐渐跑偏：

根据多样文本提示，MAGREF 可实现"一图千面"：

无论输入是谁、来自哪个时代、风格是否抽象，它都能精准复刻其身份特征，同时根据文本指令渲染出多变的动作、环境和光影氛围。

重要的是，不仅是单一主体生成。

MAGREF 在不增加模型复杂度的前提下，通过引入掩码引导与通道拼接机制，实现了对多样参考图像的统一处理能力。

无论是单人演绎、多人物互动，还是人物与物体、背景共同出现在画面中，MAGREF 都能生成身份稳定、结构一致、语义协调的视频序列。

多人同台不串脸，人物 + 物体 + 场景全控

在传统视频生成任务中，一旦涉及多个人物共同出现在镜头中，模型就容易出现身份混淆、面部融合、动作不协调等问题。MAGREF 则打破了这一技术瓶颈。

下面多个示例中，两人自拍、三位女孩喝饮料等复杂场景，全部是由 MAGREF 通过多张参考图生成的完整视频序列。

每一位角色的面貌、发型、神态与参考图一致，表情自然，互动合理。

不论是两人同框还是群体联动，或是人物置于复杂背景中，MAGREF 都能以统一结构精确建模，生成真实可信的多主体视频。

另外，在图像生成迈向视频时代的过程中，想要同时控制人物身份、出现物体、背景语境三要素，是一项极具挑战的任务。

而 MAGREF 展示了这一领域的崭新能力边界。

MAGREF 只需输入：一张人像图、一张物体图、一张环境参考图和一段 prompt，就能生成包含三类要素的完整视频序列，人物与物体有真实交互，场景融入毫无违和感。

可以看到多种组合场景：

人与宠物共处草地、与猫嬉戏；

人物形象与服饰属性一体生成，如黑色 T 恤、泳装；

背景从绿地到写字楼，从乡村街景到东方园林，语义清晰且风格协调。

那 MAGREF 是如何做到的？

基于掩码指导的的 DiT 视频生成方案

首先，MAGREF 采用了一个三阶段数据处理流程，以构建高质量、结构清晰的视频训练样本：

通用筛选与字幕生成：从原始视频中切分出语义一致的片段，过滤低质量样本，并为每段生成结构化文本。

主体提取与掩码标注：通过标签提取与语义分割识别出视频中的关键物体（如动物、服饰、道具等），并进行后处理以获得精准遮罩。

人脸识别与身份建模：检测并分配视频中人物身份，筛选高质量面部图像用于参考图构建，确保训练过程中的身份一致性。

另外，MAGREF 构建在 DiT（Diffusion Transformer）架构之上，通过引入两项关键机制——区域感知动态遮罩与像素级通道拼接，成功实现了一个统一模型适配单人、多人、人物与物体 + 背景混合等复杂视频生成任务的能力。

具体来说，MAGREF 首先在生成空间中构建一块空白画布，将输入的参考图（可以是人脸、宠物、服饰、背景等）随机排列其中。

随后，模型为每张参考图生成一张空间区域掩码，指示该图像在画布中的语义位置。

这个区域感知动态遮罩机制可自动引导模型理解"谁控制哪一块画面"，使得在视频生成中，即使参考图数量和顺序不同，系统也能保持结构一致、身份不串、关系明确。

为了进一步提升外观细节保真度，MAGREF 还采用了像素级通道拼接策略：

将所有参考图在特征维度上逐像素对齐拼接，避免传统 token 拼接可能引发的图像模糊或信息混叠问题。

该机制不仅增强了视觉一致性，也保持了生成结果对姿态、服饰、背景等细节的精准还原。

无需为不同任务单独设计模型，MAGREF 通过最小的架构改动和统一的训练流程，全面支持多种参考图配置，实现了强泛化性与高可控性的平衡。

总结来说，MAGREF 作为一个统一的参考图驱动视频生成框架，具备高度的通用性和灵活性，适用于从个人内容创作到企业级生产的多种场景。

无论是通过一张自拍生成日常短片，还是合成多人互动的广告脚本，又或是构建虚拟人与真实场景融合的数字影像，MAGREF 都展现出极强的生成一致性与可控性。

展望未来，团队计划引入更先进的模型架构，进一步提升视频的清晰度、运动连贯性与长时一致性。

同时，MAGREF 将朝着统一多模态生成系统方向演进，结合多模态大语言模型（MLLM）在理解与视觉定位上的强大能力，实现视频、音频与文本的联动生成。

这一扩展将使系统不仅能"看懂"图文指令，还能"听懂""说出"场景语义，从而实现真正意义上的跨模态、协同一致的智能内容创作框架。

注：文中示例仅为展示模型效果。如有侵权或冒犯，请联系论文作者，将及时删除。

project: https://magref-video.github.io/magref.github.io/

code: https://github.com/MAGREF-Video/MAGREF

arXiv: https://arxiv.org/pdf/2505.23742

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

� � 点亮星标 � �

科技前沿进展每日见

新闻动态

热点资讯

1.盛通股份目前有哪些布局呢

1

盛通股份目前有哪些布局呢

2025-02-04
2.每一幕皆可控！字节发布多主体视频生成神器，人人皆主角

2

每一幕皆可控！字节发布多主体视频生成神器，人人皆主角

2025-06-25
3.长沙男子砸记者采访设备并试图抢夺手机, 警方已介入调查, 中

3

长沙男子砸记者采访设备并试图抢夺手机, 警方已介入调查, 中

2025-07-19
4.颜值穿搭: 灰西装+百褶裙+藤蔓刺绣袜+丝带高跟

4

颜值穿搭: 灰西装+百褶裙+藤蔓刺绣袜+丝带高跟

2026-04-29
5.你想开“空中出租车”吗? 低空经济催生新职业

5

你想开“空中出租车”吗? 低空经济催生新职业

2026-02-06
6.52年贴身警卫崔来儒离开，邓小平落泪嘱咐：一定要收好“宝贝”

6

52年贴身警卫崔来儒离开，邓小平落泪嘱咐：一定要收好“宝贝”

2025-04-15
7.中秋晚会节目单来了！

7

中秋晚会节目单来了！

2025-10-26
8.豆包手机大火之后, 智谱宣布开源“会使用手机的”AutoGL

8

豆包手机大火之后, 智谱宣布开源“会使用手机的”AutoGL

2025-12-15
9.效仿姚明父母？疑似杨瀚森妈妈连续点赞“去美国陪儿子”言论

9

效仿姚明父母？疑似杨瀚森妈妈连续点赞“去美国陪儿子”言论

2025-11-23
10.爆火短剧《都市之全能高手》(66集)绝地逆袭、燃情对决、嗨翻

10

爆火短剧《都市之全能高手》(66集)绝地逆袭、燃情对决、嗨翻

2025-09-07

每一幕皆可控！字节发布多主体视频生成神器，人人皆主角

新闻动态

热点资讯

1.盛通股份目前有哪些布局呢

2.每一幕皆可控！字节发布多主体视频生成神器，人人皆主角

3.长沙男子砸记者采访设备并试图抢夺手机, 警方已介入调查, 中

4.颜值穿搭: 灰西装+百褶裙+藤蔓刺绣袜+丝带高跟

5.你想开“空中出租车”吗? 低空经济催生新职业

6.52年贴身警卫崔来儒离开，邓小平落泪嘱咐：一定要收好“宝贝”

7.中秋晚会节目单来了！

8.豆包手机大火之后, 智谱宣布开源“会使用手机的”AutoGL

9.效仿姚明父母？疑似杨瀚森妈妈连续点赞“去美国陪儿子”言论

10.爆火短剧《都市之全能高手》(66集)绝地逆袭、燃情对决、嗨翻

推荐资讯