ViViD视频虚拟试穿技术旨在让消费者通过合成视频看到服装给自己带来的真实效果。该框架由中国科学技术大学和阿里巴巴集团的研究团队联合开发,利用扩散模型(DiffusioModels)实现高质量且一致的试穿视频。
解决什么问题?
1. 时空一致性问题:应用于视频的传统基于图像的方法存在时间不一致、闪烁和伪影的问题。 ViViD通过时空模块解决了这个问题,保证视频的一致性。
2. 质量差和模糊问题:现有的视频试戴解决方案经常会产生质量差和模糊的结果。 ViViD 使用Guangsan 模型生成保留服装细节和纹理的高质量视频。
3.数据集限制:现有的视频虚拟试穿数据集通常分辨率较低且只有一种类型,这限制了模型性能。 ViViD 构建了高分辨率且丰富的数据集,可显着提高模型性能。
主要能力及效果
1. 保留高质量的服装细节:ViViD 使用服装编码器提取细粒度的服装语义特征,并通过注意力特征融合机制将这些细节准确地插入到目标视频中。这确保了服装颜色、纹理和图案等细节在试穿过程中得以高保真度地保留和显示。
2.时空一致性:ViViD引入了姿势编码器和分层时间模块来确保视频帧之间的时空一致性。姿势编码器帮助模型理解和处理人体姿势和服装之间的相互作用。同时,时间模块捕获并整合视频帧之间的时间信息,使生成的视频更加一致和自然,避免闪烁和伪影。
3. 支持多种服装类型:ViViD 的数据集包含上半身、下半身、连衣裙(包括连体裤)等多种服装类型。 ViViD兼容上半身、下半身、连衣裙等多种试穿场景,满足多种试穿需求。
4 高分辨率视频生成:ViViD 可以利用以高达832x624 分辨率收集的新数据集生成高分辨率试穿视频。这可确保视频中的每一帧都具有良好的视觉质量,显示服装和角色动作的细节。
5、实时视频试穿:基于ViViD高效的训练和推理框架,处理速度快,可以在合理的时间内完成视频虚拟试穿。适合实时或近实时。 - 时间应用场景。
项目和演示:https://因为imbatmant0.github.io/ViViD
论文:https:/arxiv.org/pdf/2405.11794
GitHub:https://github.com/alibaba-yuanjing-aigclab/ViViD
#AI开源项目推荐##github##AITechnology##AI虚拟试衣
版权声明:本文由今日头条转载,如有侵犯您的版权,请联系本站编辑删除。