Qwen3 Embedding - Powered by MinDoc

Ollama 本地模型：Qwen3-Embedding

Qwen3 Embedding 系列模型是 Qwen 家族的最新专有模型，专为文本嵌入和排序任务设计。该系列基于 Qwen3 系列的密集基础模型，提供了多种尺寸（0.6B、4B 和 8B）的文本嵌入和重排序模型。该系列继承了基础模型卓越的多语言能力、长文本理解及推理技能。Qwen3 Embedding 系列在多项文本嵌入和排序任务中实现了显著进步，包括文本检索、代码检索、文本分类、文本聚类以及双语文本挖掘。

卓越的多功能性：该嵌入模型在广泛的下游应用评估中实现了最先进的性能。8B 规模的嵌入模型在 MTEB 多语言排行榜上名列第一（截至 2025 年 6 月 5 日，得分 70.58），而重排序模型则在多种文本检索场景中表现出色。

全面灵活性：Qwen3 Embedding 系列提供了从 0.6B 到 8B 的全尺寸范围，涵盖嵌入与重排序模型，适应追求效率与效能并重的多样化应用场景。开发者能够无缝整合这两大模块。此外，嵌入模型支持跨所有维度的灵活向量定义，嵌入与重排序模型均支持用户自定义指令，以针对特定任务、语言或场景提升性能表现。

多语言能力：Qwen3 Embedding 系列得益于 Qwen3 模型的多语言特性，支持超过 100 种语言，涵盖多种编程语言，并具备强大的多语言、跨语言及代码检索能力。

模型概览

Qwen3-Embedding-8B-GGUF 具备以下特性：

模型类型：文本嵌入
支持语言：100+ 种语言
参数数量：80 亿
上下文长度：32k
嵌入维度：最高可达 4096，支持用户自定义输出维度，范围从 32 到 4096。
量化方法：q4_K_M、q5_0、q5_K_M、q6_K、q8_0、f16

Qwen3 嵌入系列模型列表

模型类型	模型	参数量	层数	序列长度	嵌入维度	MRL支持	指令感知
文本嵌入	Qwen3-Embedding-0.6B	0.6B	28	32K	1024	是	是
文本嵌入	Qwen3-Embedding-4B	4B	36	32K	2560	是	是
文本嵌入	Qwen3-Embedding-8B	8B	36	32K	4096	是	是
文本重排序	Qwen3-Reranker-0.6B	0.6B	28	32K	-	-	是
文本重排序	Qwen3-Reranker-4B	4B	36	32K	-	-	是
文本重排序	Qwen3-Reranker-8B	8B	36	32K	-	-	是

用法

建议：开发者应根据自身具体场景、任务及语言定制指令。我们的测试表明，在大多数检索场景中，查询端若不使用指令，可能导致检索性能下降约 1% 至 5%。

基于 Ollama 部署 Qwen3-Embedding

关于量化版本的说明：

q8_0：与浮点数16几乎无法区分。资源使用率高，速度慢。不建议大多数用户使用。
q6_k：将Q8_K用于所有张量。
q5_k_m：将 Q6_K 用于一半的 attention.wv 和 feed_forward.w2 张量，否则Q5_K。
q5_0：原始量化方法，5位。精度更高，资源使用率更高，推理速度更慢。
q4_k_m：将 Q6_K 用于一半的 attention.wv 和 feed_forward.w2 张量，否则Q4_K
q4_0：原始量化方法，4 位。
q3_k_m：将 Q4_K 用于 attention.wv、attention.wo 和 feed_forward.w2 张量，否则Q3_K
q2_k：将 Q4_K 用于 attention.vw 和 feed_forward.w2 张量，Q2_K用于其他张量。

根据经验，建议使用 Q5_K_M，因为它保留了模型的大部分性能。或者，如果要节省一些内存，可以使用 Q4_K_M。

Qwen3-Embedding-0.6B 系列

ollama pull Qwen3-embedding:0.6b
ollama pull dengcao/Qwen3-Embedding-0.6B:Q8_0
ollama pull dengcao/Qwen3-Embedding-0.6B:F16

Qwen3-Embedding-4B 系列

ollama pull Qwen3-embedding:4b
ollama pull dengcao/Qwen3-Embedding-4B:Q4_K_M
ollama pull dengcao/Qwen3-Embedding-4B:Q5_K_M
ollama pull dengcao/Qwen3-Embedding-4B:Q8_0
ollama pull dengcao/Qwen3-Embedding-4B:F16

Qwen3-Embedding-8B 系列

ollama pull Qwen3-embedding:8b
ollama pull dengcao/Qwen3-Embedding-8B:Q4_K_M
ollama pull dengcao/Qwen3-Embedding-8B:Q5_K_M
ollama pull dengcao/Qwen3-Embedding-8B:Q8_0
ollama pull dengcao/Qwen3-Embedding-8B:F16

基于 Llama.cpp 部署 Qwen3-Embedding

你可以通过一条命令运行 Qwen3 Embedding：

./build/bin/llama-embedding -m model.gguf  -p "<your context here>"  --pooling last --verbose-prompt --embd-normalize -1

或者启动服务器：

./build/bin/llama-server -m model.gguf --embedding --pooling last -ub 8192 --verbose-prompt

作者：Jeebiz 创建时间：2025-08-19 11:31
最后编辑：Jeebiz 更新时间：2025-10-31 09:36