Ollama 本地模型:如何选择合适的 Reranker 模型 ?
选择合适的 Reranker(重排序)模型对于提升 RAG 应用、语义搜索、问答系统的最终检索精度至关重要。如果说 Embedding 模型负责海选召回,那么 Reranker 模型就负责精排筛选,它能对初步检索到的候选文档进行更精细的相关性排序,确保最相关的内容排在最前面,从而大幅提升生成式 AI 的准确性和响应质量。
1. 应用场景
- 确定您的 RAG 流程是否需要重排序环节来提升检索精度。例如,
dengcao/bge-reranker-v2-m3适合中英文混合场景的轻量级需求,而dengcao/Qwen3-Reranker-8B则适合多语言高精度排序。
2. 模型性能
- 关注模型在 MTEB 多语言检索基准上的排序表现,以及实际 RAG 场景中的重排准确率。Qwen3-Reranker 系列在不同参数规模下均有突出表现,其中 8B 版本在多个检索场景中表现卓越。
3. 参数大小与推理成本
- 根据可用 GPU 显存和延迟要求选择合适大小的模型。0.6B 模型适合低资源场景,4B 和 8B 模型则提供更高的排序精度,但需要更强的硬件支持。
4. 上下文窗口长度
- Qwen3-Reranker 全系支持 32k token 上下文窗口,可处理长文档重排序。
5. 多语言支持
- 选择覆盖您的目标语言的模型。Qwen3-Reranker 支持 100+ 种语言,BGE-Reranker-v2-M3 则在中英文混合场景中表现优异。
6. 社区反馈与兼容性
- 关注模型在主流 RAG 平台(Ragflow、Dify、FastGPT)中的兼容性,以及社区维护的活跃程度。
推荐的 Reranker 模型
以下选择了当前 Ollama 生态中主流的 Reranker 模型,涵盖不同参数量和适用场景,用于进行重排序的学习与实践。
- dengcao/Qwen3-Reranker-8B:阿里通义千问系列旗舰重排序模型,8B 参数,支持 100+ 语言,32k 上下文,在 MTEB 多语言检索中表现卓越,适合追求极致精度的 RAG 应用。
- dengcao/Qwen3-Reranker-4B:4B 参数均衡版本,兼顾推理速度与排序精度,是多语言重排序的性能甜点。
- dengcao/Qwen3-Reranker-0.6B:轻量级重排序模型,仅 0.6B 参数,适合低资源、低延迟的边缘设备或快速原型验证场景。
- dengcao/bge-reranker-v2-m3:BAAI 推出的轻量级多语言重排序模型,基于 BGE-M3-0.5B 架构优化,强化中英文混合场景性能,特别适合 RAG 流程中过滤无关内容、提升相关段落优先级。
注意事项
- Windows 用户启动 Ollama 后,系统托盘会出现图标,表明服务已启动。
- 截止 2025 年 6 月,Ollama 官方暂未原生支持 Reranker 模型端点,可通过
/api/embed接口间接调用,详情见章节“API 调用方法”。 - 部分主流 RAG 平台(如 Ragflow、Dify)暂不支持 Ollama 的 Reranker 模型,添加时会提示错误;经测试 FastGPT 支持 Ollama 重排模型。
更多支持 Reranker 的模型详见:https://ollama.com/search?q=reranker
dengcao/Qwen3-Reranker-8B
Qwen3-Reranker-8B 是阿里通义千问团队推出的旗舰级文本重排序模型,专为文本排序任务优化。基于 Qwen3-8B-Base 构建,在多项检索基准上表现卓越,MTEB 多语言榜 8B 参数规模下排名第一(截至 2025 年 6 月 5 日,得分 70.58)。
文档地址:https://ollama.com/dengcao/Qwen3-Reranker-8B
核心优势:
- 参数规模 8B,支持 100+ 种语言,上下文窗口 32k
- 在 MTEB 多语言检索基准上位列第一,性能超越众多商业 API 服务
- 支持任务指令微调,可通过自定义指令(如“按相关性排序”)优化特定领域性能,实测可提升排序准确率 3%-5%
- 可与 Qwen3-Embedding 模型无缝组合,构成“Embedding 快速召回 + Reranker 精细化重排”的两阶段检索流程
该模型有 5 个量化版本:
| 量化标签 | 说明 |
|---|---|
F16 |
全精度浮点 16,性能最强,显存占用最高 |
Q8_0 |
与 F16 几乎无法区分,资源使用率高,速度较慢 |
Q5_K_M |
推荐,保留大部分性能的同时大幅缩小体积 |
Q4_K_M |
性能和资源的良好平衡,适合内存紧张的场景 |
Q3_K_M |
更低位量化,仅在存储/传输受限时考虑,质量损失明显 |
Ollama 部署 Qwen3-Reranker-8B 系列:
ollama pull dengcao/Qwen3-Reranker-8B:F16
ollama pull dengcao/Qwen3-Reranker-8B:Q8_0
ollama pull dengcao/Qwen3-Reranker-8B:Q5_K_M
ollama pull dengcao/Qwen3-Reranker-8B:Q4_K_M
ollama pull dengcao/Qwen3-Reranker-8B:Q3_K_Mdengcao/Qwen3-Reranker-4B
Qwen3-Reranker-4B 是 4B 参数版本的均衡重排序模型,基于 Qwen3-4B-Base 构建,在精度与推理速度之间取得了良好的平衡,是大多数 RAG 应用场景的性能甜点。
文档地址:https://ollama.com/dengcao/Qwen3-Reranker-4B
核心优势:
- 参数规模 4B,支持 100+ 种语言,上下文窗口 32k
- 性能显著优于 0.6B 版本,且推理速度远快于 8B 版本,适合多数生产环境部署
- 同样支持任务指令微调,可按需优化特定领域排序效果
该模型有 5 个量化版本:
| 量化标签 | 说明 |
|---|---|
F16 |
全精度浮点 16,原版性能,显存需求较高 |
Q8_0 |
与 F16 几乎无法区分,资源使用较高 |
Q5_K_M |
推荐,保留模型大部分性能 |
Q4_K_M |
内存节省明显,性能损失可控 |
Q3_K_M |
极端压缩,仅在极端受限场景使用 |
Ollama 部署 Qwen3-Reranker-4B 系列:
ollama pull dengcao/Qwen3-Reranker-4B:F16
ollama pull dengcao/Qwen3-Reranker-4B:Q8_0
ollama pull dengcao/Qwen3-Reranker-4B:Q5_K_M
ollama pull dengcao/Qwen3-Reranker-4B:Q4_K_M
ollama pull dengcao/Qwen3-Reranker-4B:Q3_K_Mdengcao/Qwen3-Reranker-0.6B
Qwen3-Reranker-0.6B 是 Qwen3 系列中最轻量的重排序模型,基于 Qwen3-0.6B-Base 构建,仅 0.6B 参数,专为低资源、低延迟场景设计,适合边缘设备部署和快速原型验证。
文档地址:https://ollama.com/dengcao/Qwen3-Reranker-0.6B
核心优势:
- 参数规模仅 0.6B,支持 100+ 种语言,上下文窗口 32k
- 极致轻量,推理速度快,内存占用低
- 适合对延迟敏感或硬件资源有限的场景
性能提示:在低参数量下,BGE-Reranker-v2-M3 的重排序效果可能优于 Qwen3-Reranker-0.6B。硬件条件满足的情况下,建议优先使用 Qwen3-Reranker-4B 或 Qwen3-Reranker-8B 的 F16 或 Q8_0 版本以获得更好的排序精度。
该模型有 4 个已知可用量化版本:
| 量化标签 | 说明 |
|---|---|
F16 |
全精度,性能最强 |
Q8_0 |
接近 F16,资源使用较高 |
Q5_K_M |
推荐,性能与体积的良好平衡 |
Q4_K_M |
极致压缩,适合最小内存占用 |
Ollama 部署 Qwen3-Reranker-0.6B 系列:
ollama pull dengcao/Qwen3-Reranker-0.6B:Q8_0
ollama pull dengcao/Qwen3-Reranker-0.6B:Q5_K_M
ollama pull dengcao/Qwen3-Reranker-0.6B:Q4_K_Mdengcao/bge-reranker-v2-m3
BGE-Reranker-v2-M3 是北京智源研究院(BAAI)推出的轻量级多语言重排序模型,基于 BGE-M3-0.5B 架构优化,专为多语言检索任务设计,尤其强化了中英文混合场景下的性能。其核心定位是为 RAG 流程提供高效的上下文重排序能力,通过过滤无关内容、提升相关段落优先级,显著改善生成式 AI 的准确性和响应速度。
文档地址:https://ollama.com/dengcao/bge-reranker-v2-m3
核心优势:
- 轻量级架构,基于 BGE-M3-0.5B,具备强大的多语言能力,部署便捷,推理速度快
- 中英文混合场景表现优异,在 C-MTEB、MIRACL 等评测基准中检索精度出彩
- 支持通过 Ollama Embedding API 调用
- 经测试 FastGPT 可正常添加并使用 Ollama 部署的该模型
ollama pull dengcao/bge-reranker-v2-m3关于量化版本的说明
量化是在模型大小和效果之间取得平衡的关键手段。以下为常用量化等级及其特点:
F16:全精度浮点 16,转换最快且保留 100% 精度,但推理慢且占用大量内存。q8_0:与浮点数 16 几乎无法区分。资源使用率高,速度慢。不建议大多数用户使用。q6_k:将 Q8_K 用于所有张量。q5_k_m:将 Q6_K 用于一半的 attention.wv 和 feed_forward.w2 张量,否则 Q5_K。q5_0:原始量化方法,5 位。精度更高,资源使用率更高,推理速度更慢。q4_k_m:将 Q6_K 用于一半的 attention.wv 和 feed_forward.w2 张量,否则 Q4_K。q4_0:原始量化方法,4 位。q3_k_m:将 Q4_K 用于 attention.wv、attention.wo 和 feed_forward.w2 张量,否则 Q3_K。q2_k:将 Q4_K 用于 attention.vw 和 feed_forward.w2 张量,Q2_K 用于其他张量。
根据经验,建议使用 Q5_K_M,因为它保留了模型的大部分性能。或者,如果要节省一些内存,可以使用 Q4_K_M。
API 调用方法
Ollama 目前不提供专用的 Reranker API 端点,但可通过 Embedding API(/api/embed)间接实现重排序功能。以下是几种调用方法:
方法一:curl 命令行调用
curl http://localhost:11434/api/embed \
-d '{
"model": "dengcao/bge-reranker-v2-m3",
"input": "Why is the sky blue?"
}'方法二:Python ollama 库调用
import ollama
response = ollama.embed(
model='dengcao/bge-reranker-v2-m3',
input='The sky is blue because of Rayleigh scattering',
)
print(response['embeddings'])方法三:JavaScript ollama 库调用
import ollama from 'ollama'
const response = await ollama.embed({
model: 'dengcao/bge-reranker-v2-m3',
input: 'The sky is blue because of Rayleigh scattering',
})
console.log(response.embeddings)注意:调用 Embedding 服务时无需运行
ollama run进入交互模式,仅需确保 Ollama 后台服务(ollama serve)已启动。
兼容性提示
如需在不兼容的平台使用重排序模型,可选择 API 服务或本地用 vLLM 部署重排序模型。
vLLM 直接部署 Qwen3-Reranker 的临时解决方法请见:
- 8B:https://www.modelscope.cn/models/dengcao/Qwen3-Reranker-8B
- 4B:https://www.modelscope.cn/models/dengcao/Qwen3-Reranker-4B
- 0.6B:https://www.modelscope.cn/models/dengcao/Qwen3-Reranker-0.6B
最后编辑:Ddd4j 更新时间:2026-04-27 00:08