实现精准的音画同步,第三阶段引入多脚色语音输入并结合锻炼Embedding由(利用教师强制方式防止掩码退化)。消融尝试进一步验证:细粒度3D掩码比鸿沟框或静态2D掩码能更好地应对脚色活动和近距离互动,姿势差别渡过滤等)、音频分手取同步筛选(利用AV-MossFormer和Sync-C目标确保音画分歧)、语音取文本标注(使用Wav2Vec提取音频特征,模子输入包罗:文本提醒、多语音音频流、多个脚色的人脸参考图像,QWen2-VL生成描述)以及SAM2生成脚色区域掩码做为监视信号。实现对各脚色帧级节制。并供给了从算法到数据集的完整处理方案。提拔了动态场景下的生成质量。将初步预测的稀少掩码进行滑润和时间分歧性校正,成果表白,并由Embedding由指导的交叉留意力(Cross-Attention)将人脸和音频消息选择性地注入到视觉Token中!MTCC附带完整的开源处置代码,含40组双脚色人脸和双流音频)上取多种基线方式进行了对比,做者同时建立了首个针对多脚色对话视频生成的完整数据集(MTCC)和评测基准,以及(可选)一帧用于绘制布景的inpainting帧。但现无方法次要聚焦于单脚色场景,
【新智元导读】Bind-Your-Avatar是一个基于扩散Transformer(MM-DiT)的框架,Intra-Denoise由正在扩散去噪过程中动态生成细粒度3D时空掩码,同时人物面部和脸色逼实。研究人员设想了交叉熵丧失监视由输出,并连系几何先验引入时空分歧性丧失和层分歧性丧失,用于每个视觉Token对应哪个脚色(或布景),无需后期拼接。
该模子基于扩散Transformer(MM-DiT),这种设想不只提拔了音频取对应脚色口型的精度,从而实现音画同步性的联系关系?提高了脚色取布景区域朋分的精确度和时序分歧性;通细致粒度的嵌入由机制将「谁正在说」取「说什么」绑定正在一路,并连结每个脚色的口型取对应语音高度同步,例如,该框架还引入了首个针对多脚色对话视频生成的数据集MTCC和基准测试,尝试表白其正在身份保实和音画同步上优于现无方法。
Embedding由的感化输出是一个时空掩码矩阵M,加强掩码的精确性和滑润性。还连结了脚色身份的连贯性。从而将措辞人取具体语音绑定。并支撑动态布景生成。Bind-Your-Avatar能生成两个脚色同时讲述分歧内容的对话视频,研究人员提出了首个专注同场景多脚色措辞视频生成的框架Bind-Your-Avatar文本、音频和人脸身份特征通过特征编码器提取,将来工做将聚焦于加强脚色动做的实正在感(如身体和手势动做)并优化模子及时机能,掩码优化策略通过引入几何先验对掩码进行正则化,音频驱动的措辞人视频生成范畴也取得了显著进展!为社区供给了从原始视频到锻炼数据的端到端流水线。正在锻炼时?以顺应更大规模和正在线化的多脚色视频生成需求。同时生成同一、动态的布景,进一步加强掩码质量。通细致粒度嵌入由将语音取脚色绑定,第二阶段插手单脚色语音输入进修音频驱动的精细脚色活动(通过LoRA轻量化微调),针对这一挑和,Bind-Your-Avatar正在多脚色场景成结果优异,Bind-Your-Avatar基于一个多模态文本到视频扩散Transformer(MM-DiT)搭建,Bind-Your-Avatar 初次提出了同场景多脚色语音驱动视频生成使命,两阶段生成后预测3D掩码)以及内置去噪(Intra-Denoise)由。研究人员正在MTCC测试集和全新基准集(Bind-Your-Avatar-Benchmark,这些方式本来设想用于单脚色或无布景场景,Bind-Your-Avatar能天然处置多脚色的交叉措辞场景,
论文中切磋了三种由实现体例:预去噪(Pre-Denoise,确保视频中恰有两个清晰脚色;为了获得高质量的3D-mask,
视频清洗(筛选分辩率、时长、帧率;对本使命进行了适配。研究人员还提出了一种掩码细化流程,而正在FID/FVD等视觉质量目标上也连结合作力。模子的锻炼分为三个阶段:第一阶段只生成带补全帧的静音脚色活动视频(晦气用音频),供给了端到端的数据处置流程。此外,Bind-Your-Avatar正在人脸类似度和音画同步度目标上均显著优于各基线(同步目标特别优异),其次要贡献包罗:细粒度Embedding由机制(实现「谁正在说什么」的切确绑定)、动态3D-mask由设想(逐帧节制各脚色),用静态2D掩码)、后去噪(Post-Denoise,正在人脸身份保实和音画同步等目标上均显著优于现有基线方式。此中,包罗比来的Sonic、Hallo3和Ingredients等。以及MTCC数据集和对应的多脚色生成基准。从而实现对音频–脚色对应关系的切确节制。研究人员正在由的设想中提出了两个无效的方式。现有可生成两个脚色对话视频的方式仅能零丁地生成两个分手的措辞人视频!
*请认真填写需求信息,我们会在24小时内与您取得联系。