OpenAI 近日推出全新模型 sCM,引发广泛关注。该模型在内容生成速度方面实现了重大突破,提升达 50 倍,生图只需 0.1 秒。
研究人员介绍,sCM 在生成多媒体内容如图像、视频和音频的速度上远超传统扩散模型。它能够在不到 0.1 秒内生成一幅图像,而传统扩散模型往往需要超过 5 秒。研究团队仅用两次采样步骤,就成功生成高质量样本,在不牺牲质量的前提下提高了生成过程的效率。
文章由 OpenAI 的 Lu Cheng 和 Yang Song 共同撰写,虽尚未经过同行评审,但潜在影响不容小觑。Yang Song 在 2023 年首次提出‘一致性模型’概念,为 sCM 的发展奠定了基础。
sCM 模型最大亮点是在不增加计算负担的情况下实现更快采样速度。OpenAI 的最大 sCM 模型拥有 15 亿个参数,在一块 A100GPU 上生成样本的时间仅为 0.11 秒,相比扩散模型挂钟时间加快 50 倍,使实时生成式 AI 应用更加可行。在样本质量方面,sCM 在 ImageNet512×512 数据集上训练后达到 1.88 的 Fréchet Inception Distance(FID)分数,与顶级扩散模型相差不到 10%,且计算开销显著减少。
未来,sCM 模型的快速采样和可扩展性将为多个领域的实时生成 AI 应用开启新的可能性,包括图像、音频和视频合成,为快速、高质量输出提供实用解决方案,同时也暗示了进一步优化的潜力。