2024 年 11 月 19 日,北大等团队带来了震撼性的成果——多模态版 o1 模型 LLaVA-o1。这个基于 Llama-3.2-Vision 模型打造的创新之作,实现了自主“慢思考”推理,为多模态领域注入了新的活力。
LLaVA-o1 在多模态推理基准测试中表现卓越,超越其基础模型 8.9%,性能更是超越了一众开闭源模型。它的成功得益于独特的设计。为了使模型更加结构化和系统化,团队设计了 4 个标签,分别是<摘要>、<标题>、<理由>和<结论>,帮助模型识别当前的推理阶段。并且,团队使用 GPT-4o 生成了 LLaVA-o1-100k 数据集。
在推理过程中,LLaVA-o1 超越传统 COT 思维链,采用结构化、多步骤推理。它将推理过程划分为总结、视觉解释、逻辑推理和结论生成四个明确的阶段。与传统方法不同,LLaVA-o1 独立参与这些连续阶段,每个阶段采用优中选优策略为下一阶段提供响应。例如在解决‘减去所有的小亮球和紫色物体,剩下多少个物体?’这个问题时,传统提示词方法让 Llama-3.2-11B-Vision-Instruct 虽然步骤清晰但得出错误结果,而 LLaVA-o1 则通过四个阶段的严谨推理得出正确答案。
为了进一步提升推理能力和推理时间的可扩展性,LLaVA-o1 采用了监督微调和阶段级光束搜索方法。这种方法为每个阶段生成多个响应,并选择其中最佳的一个进入下一阶段,提高了整体推理的质量。
LLaVA-o1 是由北大、鹏城实验室等团队出品,论文作者包括 Guowei Xu、Peng Jin、Hao Li、袁粒、Yibing Song 和 Lichao Sun 等六人。他们在多模态领域的探索和创新,为人工智能的发展做出了重要贡献。
最后,团队宣布 LLaVA-o1 的代码、预训练权重、数据集等即将全部开源,这无疑为感兴趣的研究者提供了宝贵的资源,也将推动多模态领域的进一步发展。