资讯 - 济南通悟人工智能科技有限公司

2024 年 11 月 19 日，北大等团队带来了震撼性的成果——多模态版 o1 模型 LLaVA-o1。这个基于 Llama-3.2-Vision 模型打造的创新之作，实现了自主“慢思考”推理，为多模态领域注入了新的活力。

LLaVA-o1 在多模态推理基准测试中表现卓越，超越其基础模型 8.9%，性能更是超越了一众开闭源模型。它的成功得益于独特的设计。为了使模型更加结构化和系统化，团队设计了 4 个标签，分别是<摘要>、<标题>、<理由>和<结论>，帮助模型识别当前的推理阶段。并且，团队使用 GPT-4o 生成了 LLaVA-o1-100k 数据集。

在推理过程中，LLaVA-o1 超越传统 COT 思维链，采用结构化、多步骤推理。它将推理过程划分为总结、视觉解释、逻辑推理和结论生成四个明确的阶段。与传统方法不同，LLaVA-o1 独立参与这些连续阶段，每个阶段采用优中选优策略为下一阶段提供响应。例如在解决‘减去所有的小亮球和紫色物体，剩下多少个物体？’这个问题时，传统提示词方法让 Llama-3.2-11B-Vision-Instruct 虽然步骤清晰但得出错误结果，而 LLaVA-o1 则通过四个阶段的严谨推理得出正确答案。

为了进一步提升推理能力和推理时间的可扩展性，LLaVA-o1 采用了监督微调和阶段级光束搜索方法。这种方法为每个阶段生成多个响应，并选择其中最佳的一个进入下一阶段，提高了整体推理的质量。

LLaVA-o1 是由北大、鹏城实验室等团队出品，论文作者包括 Guowei Xu、Peng Jin、Hao Li、袁粒、Yibing Song 和 Lichao Sun 等六人。他们在多模态领域的探索和创新，为人工智能的发展做出了重要贡献。

最后，团队宣布 LLaVA-o1 的代码、预训练权重、数据集等即将全部开源，这无疑为感兴趣的研究者提供了宝贵的资源，也将推动多模态领域的进一步发展。

北大等发布多模态版 o1：LLaVA-o1 引领视觉推理新潮流