Ollama 本地模型:Qwen3-Embedding
Qwen3 Embedding 系列模型是 Qwen 家族的最新专有模型,专为
文本嵌入
和排序任务
设计。该系列基于 Qwen3 系列的密集基础模型,提供了多种尺寸(0.6B、4B 和 8B)的文本嵌入和重排序模型。该系列继承了基础模型卓越的多语言能力、长文本理解及推理技能。Qwen3 Embedding 系列在多项文本嵌入和排序任务中实现了显著进步,包括文本检索、代码检索、文本分类、文本聚类以及双语文本挖掘。
卓越的多功能性:该嵌入模型在广泛的下游应用评估中实现了最先进的性能。8B 规模的嵌入模型在 MTEB 多语言排行榜上名列第一(截至 2025 年 6 月 5 日,得分 70.58),而重排序模型则在多种文本检索场景中表现出色。
全面灵活性:Qwen3 Embedding 系列提供了从 0.6B 到 8B 的全尺寸范围,涵盖嵌入与重排序模型,适应追求效率与效能并重的多样化应用场景。开发者能够无缝整合这两大模块。此外,嵌入模型支持跨所有维度的灵活向量定义,嵌入与重排序模型均支持用户自定义指令,以针对特定任务、语言或场景提升性能表现。
多语言能力:Qwen3 Embedding 系列得益于 Qwen3 模型的多语言特性,支持超过 100 种语言,涵盖多种编程语言,并具备强大的多语言、跨语言及代码检索能力。
模型概览
Qwen3-Embedding-8B-GGUF 具备以下特性:
- 模型类型:文本嵌入
- 支持语言:100+ 种语言
- 参数数量:80 亿
- 上下文长度:32k
- 嵌入维度:最高可达 4096,支持用户自定义输出维度,范围从 32 到 4096。
- 量化方法:q4_K_M、q5_0、q5_K_M、q6_K、q8_0、f16
Qwen3 嵌入系列模型列表
模型类型 | 模型 | 参数量 | 层数 | 序列长度 | 嵌入维度 | MRL支持 | 指令感知 |
---|---|---|---|---|---|---|---|
文本嵌入 | Qwen3-Embedding-0.6B | 0.6B | 28 | 32K | 1024 | 是 | 是 |
文本嵌入 | Qwen3-Embedding-4B | 4B | 36 | 32K | 2560 | 是 | 是 |
文本嵌入 | Qwen3-Embedding-8B | 8B | 36 | 32K | 4096 | 是 | 是 |
文本重排序 | Qwen3-Reranker-0.6B | 0.6B | 28 | 32K | - | - | 是 |
文本重排序 | Qwen3-Reranker-4B | 4B | 36 | 32K | - | - | 是 |
文本重排序 | Qwen3-Reranker-8B | 8B | 36 | 32K | - | - | 是 |
用法
建议:开发者应根据自身具体场景、任务及语言定制指令。我们的测试表明,在大多数检索场景中,查询端若不使用指令,可能导致检索性能下降约 1% 至 5%。
基于 Ollama 部署 Qwen3-Embedding
关于量化版本的说明:
- q8_0:与浮点数16几乎无法区分。资源使用率高,速度慢。不建议大多数用户使用。
- q6_k:将Q8_K用于所有张量。
- q5_k_m:将 Q6_K 用于一半的 attention.wv 和 feed_forward.w2 张量,否则Q5_K。
- q5_0: 原始量化方法,5位。精度更高,资源使用率更高,推理速度更慢。
- q4_k_m:将 Q6_K 用于一半的 attention.wv 和 feed_forward.w2 张量,否则Q4_K
- q4_0:原始量化方法,4 位。
- q3_k_m:将 Q4_K 用于 attention.wv、attention.wo 和 feed_forward.w2 张量,否则Q3_K
- q2_k:将 Q4_K 用于 attention.vw 和 feed_forward.w2 张量,Q2_K用于其他张量。
根据经验,建议使用 Q5_K_M,因为它保留了模型的大部分性能。或者,如果要节省一些内存,可以使用 Q4_K_M。
Qwen3-Embedding-0.6B 系列
ollama run dengcao/Qwen3-Embedding-0.6B:Q8_0
ollama run dengcao/Qwen3-Embedding-0.6B:F16
Qwen3-Embedding-4B 系列
ollama run dengcao/Qwen3-Embedding-4B:Q4_K_M
ollama run dengcao/Qwen3-Embedding-4B:Q5_K_M
ollama run dengcao/Qwen3-Embedding-4B:Q8_0
ollama run dengcao/Qwen3-Embedding-4B:F16
Qwen3-Embedding-8B 系列
ollama run dengcao/Qwen3-Embedding-8B:Q4_K_M
ollama run dengcao/Qwen3-Embedding-8B:Q5_K_M
ollama run dengcao/Qwen3-Embedding-8B:Q8_0
ollama run dengcao/Qwen3-Embedding-8B:F16
基于 Llama.cpp 部署 Qwen3-Embedding
你可以通过一条命令运行 Qwen3 Embedding:
./build/bin/llama-embedding -m model.gguf -p "<your context here>" --pooling last --verbose-prompt --embd-normalize -1
或者启动服务器:
./build/bin/llama-server -m model.gguf --embedding --pooling last -ub 8192 --verbose-prompt
最后编辑:Jeebiz 更新时间:2025-08-19 11:47