2024 年 10 月 23 日,复旦大学、百度、南京大学共同推出了全新升级的 Hallo2。Hallo2 能够生成令人惊叹的 4K 分辨率、长达一小时的音频驱动视频。
在之前,我们曾介绍过复旦大学开源的 Hallo 项目,如今的 Hallo2 更是在其基础上实现了重大突破。该方法可以处理单个参考图像以及持续几分钟的音频输入,并且在不同的间隔引入可选的文本提示,从而调节和细化肖像的表情。最终输出的高分辨率 4K 视频与音频同步,受可选表情提示的影响,确保了整个视频的连续性。
Hallo2 的方法主要围绕三个核心技术。首先,采用补丁丢弃数据增强技术解决生成长时间视频时的外观一致性问题,防止前一帧对后续帧外观的污染。其次,扩展向量量化生成对抗网络(VQGAN)并引入时间对齐机制,实现 4K 视频生成的平滑过渡和高分辨率细节。最后,通过在音频信号基础上引入可调节的文本提示,增强对肖像表情和运动的控制能力,使生成的动画更加生动富有表现力。
相关链接如下:
项目主页:https://fudan-generative-vision.github.io/hallo2
代码地址:https://github.com/fudan-generative-vision/hallo2
试用地址:https://huggingface.co/fudan-generative-ai/hallo2