Llama 3.2 Vision

Llama 3.2 Vision 是 11B 和 90B 大小的指令调整图像推理生成模型的集合。

Ollama：https://ollama.com/library/llama3.2-vision
GitHub: https://github.com/meta-llama/llama-models
HuggingFace: https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf

Llama 3.2-Vision 多模态大型语言模型 (LLM) 集合是一组经过指令调整的图像推理生成模型，大小分别为 11B 和 90B（文本 + 图像输入/文本输出）。Llama 3.2-Vision 经过指令调整的模型针对视觉识别、图像推理、字幕和回答有关图像的一般问题进行了优化。这些模型在常见的行业基准上优于许多可用的开源和封闭多模态模型。

支持的语言：对于纯文本任务，官方支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。Llama 3.2 已针对比这 8 种支持的语言更广泛的语言进行过训练。请注意，对于图像+文本应用程序，英语是唯一支持的语言。

用法

首先拉取模型：

ollama pull llama3.2-vision

Python 库

要将 Llama 3.2 Vision 与 Ollama Python 库一起使用：

import ollama

response = ollama.chat(
    model='llama3.2-vision',
    messages=[{
        'role': 'user',
        'content': 'What is in this image?',
        'images': ['image.jpg']
    }]
)

print(response)

JavaScript 库

要将 Llama 3.2 Vision 与 Ollama JavaScript 库一起使用：

import ollama from 'ollama'

const response = await ollama.chat({
  model: 'llama3.2-vision',
  messages: [{
    role: 'user',
    content: 'What is in this image?',
    images: ['image.jpg']
  }]
})

console.log(response)

curl

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2-vision",
  "messages": [
    {
      "role": "user",
      "content": "what is in this image?",
      "images": ["<base64-encoded image data>"]
    }
  ]
}'

作者：Jeebiz 创建时间：2025-02-17 14:16
最后编辑：Jeebiz 更新时间：2025-10-18 01:16