Ollama 本地模型:Qwen3-Embedding

Qwen3 Embedding 系列模型是 Qwen 家族的最新专有模型,专为文本嵌入排序任务设计。该系列基于 Qwen3 系列的密集基础模型,提供了多种尺寸(0.6B、4B 和 8B)的文本嵌入和重排序模型。该系列继承了基础模型卓越的多语言能力、长文本理解及推理技能。Qwen3 Embedding 系列在多项文本嵌入和排序任务中实现了显著进步,包括文本检索、代码检索、文本分类、文本聚类以及双语文本挖掘。

卓越的多功能性:该嵌入模型在广泛的下游应用评估中实现了最先进的性能。8B 规模的嵌入模型在 MTEB 多语言排行榜上名列第一(截至 2025 年 6 月 5 日,得分 70.58),而重排序模型则在多种文本检索场景中表现出色。

全面灵活性:Qwen3 Embedding 系列提供了从 0.6B 到 8B 的全尺寸范围,涵盖嵌入与重排序模型,适应追求效率与效能并重的多样化应用场景。开发者能够无缝整合这两大模块。此外,嵌入模型支持跨所有维度的灵活向量定义,嵌入与重排序模型均支持用户自定义指令,以针对特定任务、语言或场景提升性能表现。

多语言能力:Qwen3 Embedding 系列得益于 Qwen3 模型的多语言特性,支持超过 100 种语言,涵盖多种编程语言,并具备强大的多语言、跨语言及代码检索能力。

模型概览

Qwen3-Embedding-8B-GGUF 具备以下特性:

  • 模型类型:文本嵌入
  • 支持语言:100+ 种语言
  • 参数数量:80 亿
  • 上下文长度:32k
  • 嵌入维度:最高可达 4096,支持用户自定义输出维度,范围从 32 到 4096。
  • 量化方法:q4_K_M、q5_0、q5_K_M、q6_K、q8_0、f16

Qwen3 嵌入系列模型列表

模型类型 模型 参数量 层数 序列长度 嵌入维度 MRL支持 指令感知
文本嵌入 Qwen3-Embedding-0.6B 0.6B 28 32K 1024
文本嵌入 Qwen3-Embedding-4B 4B 36 32K 2560
文本嵌入 Qwen3-Embedding-8B 8B 36 32K 4096
文本重排序 Qwen3-Reranker-0.6B 0.6B 28 32K - -
文本重排序 Qwen3-Reranker-4B 4B 36 32K - -
文本重排序 Qwen3-Reranker-8B 8B 36 32K - -

用法

建议:开发者应根据自身具体场景、任务及语言定制指令。我们的测试表明,在大多数检索场景中,查询端若不使用指令,可能导致检索性能下降约 1% 至 5%。

基于 Ollama 部署 Qwen3-Embedding

关于量化版本的说明

  • q8_0:与浮点数16几乎无法区分。资源使用率高,速度慢。不建议大多数用户使用。
  • q6_k:将Q8_K用于所有张量。
  • q5_k_m:将 Q6_K 用于一半的 attention.wv 和 feed_forward.w2 张量,否则Q5_K。
  • q5_0: 原始量化方法,5位。精度更高,资源使用率更高,推理速度更慢。
  • q4_k_m:将 Q6_K 用于一半的 attention.wv 和 feed_forward.w2 张量,否则Q4_K
  • q4_0:原始量化方法,4 位。
  • q3_k_m:将 Q4_K 用于 attention.wv、attention.wo 和 feed_forward.w2 张量,否则Q3_K
  • q2_k:将 Q4_K 用于 attention.vw 和 feed_forward.w2 张量,Q2_K用于其他张量。

根据经验,建议使用 Q5_K_M,因为它保留了模型的大部分性能。或者,如果要节省一些内存,可以使用 Q4_K_M。

Qwen3-Embedding-0.6B 系列
ollama run dengcao/Qwen3-Embedding-0.6B:Q8_0
ollama run dengcao/Qwen3-Embedding-0.6B:F16
Qwen3-Embedding-4B 系列
ollama run dengcao/Qwen3-Embedding-4B:Q4_K_M
ollama run dengcao/Qwen3-Embedding-4B:Q5_K_M
ollama run dengcao/Qwen3-Embedding-4B:Q8_0
ollama run dengcao/Qwen3-Embedding-4B:F16
Qwen3-Embedding-8B 系列
ollama run dengcao/Qwen3-Embedding-8B:Q4_K_M
ollama run dengcao/Qwen3-Embedding-8B:Q5_K_M
ollama run dengcao/Qwen3-Embedding-8B:Q8_0
ollama run dengcao/Qwen3-Embedding-8B:F16

基于 Llama.cpp 部署 Qwen3-Embedding

你可以通过一条命令运行 Qwen3 Embedding:

./build/bin/llama-embedding -m model.gguf  -p "<your context here>"  --pooling last --verbose-prompt --embd-normalize -1 

或者启动服务器:

./build/bin/llama-server -m model.gguf --embedding --pooling last -ub 8192 --verbose-prompt
作者:Jeebiz  创建时间:2025-08-19 11:31
最后编辑:Jeebiz  更新时间:2025-08-19 11:47