资讯 - 济南通悟人工智能科技有限公司

2024 年 8 月 30 日 14:35:00，阿里震撼发布最强开源多模态模型 Qwen2-VL，这一全新的多模态大模型强势来袭！

一、Qwen2-VL 的卓越表现

阿里的 Qwen2 大模型家族迎来了新成员 Qwen2-VL，在图像和长视频理解任务上取得了卓越成就，双双达到 SOTA 水平。在具体的子类任务中，Qwen2-VL 在大部分指标上都实现了最优，甚至超越了 GPT-4o 等闭源模型。

在多模态能力的助力下，Qwen2-VL 展现出强大的功能。它可以实时读取摄像头或电脑屏幕，进行文字形式的视频对话。不仅如此，它还能作为 Agent 与环境进行交互，根据任务目标自主操控手机等设备。

二、Qwen2 的版本与支持

此次发布的 Qwen2 共有 2B、7B、72B 三个版本。其中，2B 和 7B 版本已可下载并免费商用（Apache 2.0），72B 版本则通过 API 提供。目前，开源代码已集成到 Hugging Face Transformers、vLLM 等第三方框架中。不少网友纷纷 cue 一些知名大模型推理平台，如 Groq、Ollama，期望它们能够早日提供支持。

三、Qwen2-VL 的精彩表现展示

操作机械臂：利用强大的多模态能力，Qwen2-VL 能够操纵机械臂，进行物体的拿取、放置等操作。还能化身扑克牌玩家，在 “24 点” 游戏中根据识别到的场上信息和提示词描述进行决策，并取得胜利。
信息检索：Qwen2-VL 可以根据识别到的屏幕内容，结合用户需求自行操作手机在网络上进行信息检索。
基础能力：在图像识别方面，Qwen2-VL 可以准确认出花的品种。在文字识别场景中，支持多种语言的文本提取，甚至能在 16 种语言混合的图片中判断各自语种并提取全部文本。手写字体和复杂数学公式也能识别，上下标等微小细节处理到位。此外，还支持多模态推理，代码和数学（包括几何）类问题只需传张图片就能解决。
视频分析：Qwen2-VL 最长可以对 20 分钟以上的视频进行内容分析，支持总结和对细节提问。目前只能分析画面，暂不支持声音处理。同时也支持实时视频文字对话，可读取电脑屏幕作为对话内容。

四、多模态实力超越 GPT-4o

为了解 Qwen2-VL 在各种任务上的综合表现，千问团队从六个方面对其视觉能力进行了评估，包括综合类大学试题、数学试题、文档表格理解、通用场景下的问答、视频理解以及 Agent 能力。整体来看，Qwen2-72B 在大部分指标上达到最优，超过 GPT-4o 和 Claude3.5-Sonnet，在文档理解方面优势明显。在多语言测试中，MTVQA 在 9 种语言中的 8 种全面超越 GPT-4o、Claude3-Opus 和 Gemini Ultra 等先进闭源模型，平均成绩也是最高分。7B 版本支持图像、多图、视频输入，达到同等规模模型的 SOTA 水准。2B 版本主要为移动端设计，虽小但具备完整图像视频多语言理解能力，在视频文档和通用场景问答方面相较同规模模型优势明显。

整体上，Qwen2-VL 延续了上一代 Qwen-VL 中 ViT 加 Qwen（2）的串联结构，采用 600M 规模大小的 ViT，支持图像和视频统一输入。为了让模型更清楚地感知视觉信息和理解视频，Qwen2-VL 新增了对原生动态分辨率的全面支持，能够处理任意分辨率的图像输入，不同大小图片被转换为动态数量的 tokens，最少只需 4 个。此外，Qwen2-VL 在架构上的创新 —— 多模态旋转位置嵌入（M-ROPE），使大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息，提升了多模态处理和推理能力。

QWen2-VL发布