Qwen3-VL
Qwen3-VL 是迄今为止 Qwen 系列中最强大的视觉语言模型。
在这一代中,模型在多个领域实现了提升:其文本理解与生成能力、视觉内容的感知与推理、支持更长上下文的理解、空间关系与动态视频的解析,以及与 AI 代理的互动 ——Qwen3-VL 在每一个方面都展现出了显著且明确的进步。
主要特点
视觉代理能力:Qwen3-VL 能够操作计算机和移动设备界面 —— 识别图形用户界面元素、理解按钮功能、调用工具并完成任务。在 OS World 等全球基准测试中,它达到了顶尖性能,且使用工具显著提升了其在细粒度感知任务上的表现。
卓越的文本核心性能:Qwen3-VL 采用早期阶段的文本与视觉模态联合预训练,持续强化其语言能力。在基于文本的任务上,其表现与旗舰级语言模型 Qwen3-235B-A22B-2507 旗鼓相当,使之成为新一代视觉语言模型中名副其实的 “文本为基础,多模态强大” 的典范。
显著提升的视觉编码能力:如今,它能够从图像或视频中生成代码 —— 例如,将设计模型转化为 Draw.io、HTML、CSS 或 JavaScript 代码 —— 使 “所见即所得” 的可视化编程成为现实。
显著提升的空间理解能力:从绝对坐标到相对坐标的二维定位。能够判断物体位置、视角变化及遮挡关系。支持三维定位,为复杂空间推理和具身智能应用奠定基础。
长上下文与长视频理解:所有模型原生支持 256K 令牌的上下文,并可扩展至 100 万令牌。这意味着您可以输入数百页的技术文档、整本教科书,甚至两小时的视频 —— 模型将记住所有内容,并精确检索细节,精确到视频中的每一秒。
更强大的多模态推理(思维版):思维模型特别针对 STEM 和数学推理进行了优化。面对复杂的学科问题时,它能够注意到细微之处,逐步拆解问题,分析因果关系,并给出基于逻辑和证据的答案。在 MathVision、MMMU 和 MathVista 等推理基准测试中,它表现出了卓越的性能。
升级的视知觉与识别能力:通过提升预训练数据的质量与多样性,模型如今能够识别更为广泛的对象 —— 从名人、动漫角色、产品及地标,到动植物 —— 满足日常生活与专业 “无所不辨” 的需求。
更优 OCR 支持更多语言与复杂场景:OCR 现已支持 32 种语言(此前为 10 种),覆盖更多国家和地区。在光照不足、模糊或文字倾斜等现实挑战性条件下,其表现更为稳定。对于罕见字符、古文字及专业术语的识别准确率亦有显著提升。同时,其在理解长篇文档与精细结构重建方面的能力进一步增强。
模型
- 2B
ollama run qwen3-vl:2b - 4B
ollama run qwen3-vl:4b - 8B
ollama run qwen3-vl:8b - 30B
ollama run qwen3-vl:30b - 32B
ollama run qwen3-vl:32b - 235B
ollama run qwen3-vl:235b ollama run qwen3-vl:235b-cloud
最后编辑:Jeebiz 更新时间:2025-10-31 09:36