重磅开源!复旦与微软联手发布首个端到端无限时长 AI 视频生成框架 StableAvatar

(2)Audio Native Guidance:由于优化后的audio embeddings本质上也依赖于潜变量,而不仅仅依赖外部音频信号,我们的Audio Native Guidance不再将audio embeddings作为一个独立于潜变量的外部特征,而是将其作为一个与潜变量相关的扩散模型的内部特征,我们的引导机制能够直接作用于扩散模型的采样分布,将生成过程引导至音频–潜变量的联合分布,并使扩散模型在整个去噪过程中不断优化其生成结果。扩散模型的兴起极大地推动了语音驱动人类视频生成的研究。