2024 年 8 月 30 日 14:35:00,阿里震撼发布最强开源多模态模型 Qwen2-VL,这一全新的多模态大模型强势来袭!
一、Qwen2-VL 的卓越表现
阿里的 Qwen2 大模型家族迎来了新成员 Qwen2-VL,在图像和长视频理解任务上取得了卓越成就,双双达到 SOTA 水平。在具体的子类任务中,Qwen2-VL 在大部分指标上都实现了最优,甚至超越了 GPT-4o 等闭源模型。
在多模态能力的助力下,Qwen2-VL 展现出强大的功能。它可以实时读取摄像头或电脑屏幕,进行文字形式的视频对话。不仅如此,它还能作为 Agent 与环境进行交互,根据任务目标自主操控手机等设备。
二、Qwen2 的版本与支持
此次发布的 Qwen2 共有 2B、7B、72B 三个版本。其中,2B 和 7B 版本已可下载并免费商用(Apache 2.0),72B 版本则通过 API 提供。目前,开源代码已集成到 Hugging Face Transformers、vLLM 等第三方框架中。不少网友纷纷 cue 一些知名大模型推理平台,如 Groq、Ollama,期望它们能够早日提供支持。
三、Qwen2-VL 的精彩表现展示
操作机械臂:利用强大的多模态能力,Qwen2-VL 能够操纵机械臂,进行物体的拿取、放置等操作。还能化身扑克牌玩家,在 “24 点” 游戏中根据识别到的场上信息和提示词描述进行决策,并取得胜利。
信息检索:Qwen2-VL 可以根据识别到的屏幕内容,结合用户需求自行操作手机在网络上进行信息检索。
基础能力:在图像识别方面,Qwen2-VL 可以准确认出花的品种。在文字识别场景中,支持多种语言的文本提取,甚至能在 16 种语言混合的图片中判断各自语种并提取全部文本。手写字体和复杂数学公式也能识别,上下标等微小细节处理到位。此外,还支持多模态推理,代码和数学(包括几何)类问题只需传张图片就能解决。
视频分析:Qwen2-VL 最长可以对 20 分钟以上的视频进行内容分析,支持总结和对细节提问。目前只能分析画面,暂不支持声音处理。同时也支持实时视频文字对话,可读取电脑屏幕作为对话内容。
四、多模态实力超越 GPT-4o
为了解 Qwen2-VL 在各种任务上的综合表现,千问团队从六个方面对其视觉能力进行了评估,包括综合类大学试题、数学试题、文档表格理解、通用场景下的问答、视频理解以及 Agent 能力。整体来看,Qwen2-72B 在大部分指标上达到最优,超过 GPT-4o 和 Claude3.5-Sonnet,在文档理解方面优势明显。在多语言测试中,MTVQA 在 9 种语言中的 8 种全面超越 GPT-4o、Claude3-Opus 和 Gemini Ultra 等先进闭源模型,平均成绩也是最高分。7B 版本支持图像、多图、视频输入,达到同等规模模型的 SOTA 水准。2B 版本主要为移动端设计,虽小但具备完整图像视频多语言理解能力,在视频文档和通用场景问答方面相较同规模模型优势明显。
整体上,Qwen2-VL 延续了上一代 Qwen-VL 中 ViT 加 Qwen(2)的串联结构,采用 600M 规模大小的 ViT,支持图像和视频统一输入。为了让模型更清楚地感知视觉信息和理解视频,Qwen2-VL 新增了对原生动态分辨率的全面支持,能够处理任意分辨率的图像输入,不同大小图片被转换为动态数量的 tokens,最少只需 4 个。此外,Qwen2-VL 在架构上的创新 —— 多模态旋转位置嵌入(M-ROPE),使大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息,提升了多模态处理和推理能力。