4、重排模型（Reranker Models）

Ollama 本地模型：如何选择合适的 Reranker 模型？

选择合适的 Reranker（重排序）模型对于提升 RAG 应用、语义搜索、问答系统的最终检索精度至关重要。如果说 Embedding 模型负责海选召回，那么 Reranker 模型就负责精排筛选，它能对初步检索到的候选文档进行更精细的相关性排序，确保最相关的内容排在最前面，从而大幅提升生成式 AI 的准确性和响应质量。

1. 应用场景

确定您的 RAG 流程是否需要重排序环节来提升检索精度。例如，dengcao/bge-reranker-v2-m3 适合中英文混合场景的轻量级需求，而 dengcao/Qwen3-Reranker-8B 则适合多语言高精度排序。

2. 模型性能

关注模型在 MTEB 多语言检索基准上的排序表现，以及实际 RAG 场景中的重排准确率。Qwen3-Reranker 系列在不同参数规模下均有突出表现，其中 8B 版本在多个检索场景中表现卓越。

3. 参数大小与推理成本

根据可用 GPU 显存和延迟要求选择合适大小的模型。0.6B 模型适合低资源场景，4B 和 8B 模型则提供更高的排序精度，但需要更强的硬件支持。

4. 上下文窗口长度

Qwen3-Reranker 全系支持 32k token 上下文窗口，可处理长文档重排序。

5. 多语言支持

选择覆盖您的目标语言的模型。Qwen3-Reranker 支持 100+ 种语言，BGE-Reranker-v2-M3 则在中英文混合场景中表现优异。

6. 社区反馈与兼容性

关注模型在主流 RAG 平台（Ragflow、Dify、FastGPT）中的兼容性，以及社区维护的活跃程度。

推荐的 Reranker 模型

以下选择了当前 Ollama 生态中主流的 Reranker 模型，涵盖不同参数量和适用场景，用于进行重排序的学习与实践。

dengcao/Qwen3-Reranker-8B：阿里通义千问系列旗舰重排序模型，8B 参数，支持 100+ 语言，32k 上下文，在 MTEB 多语言检索中表现卓越，适合追求极致精度的 RAG 应用。
dengcao/Qwen3-Reranker-4B：4B 参数均衡版本，兼顾推理速度与排序精度，是多语言重排序的性能甜点。
dengcao/Qwen3-Reranker-0.6B：轻量级重排序模型，仅 0.6B 参数，适合低资源、低延迟的边缘设备或快速原型验证场景。
dengcao/bge-reranker-v2-m3：BAAI 推出的轻量级多语言重排序模型，基于 BGE-M3-0.5B 架构优化，强化中英文混合场景性能，特别适合 RAG 流程中过滤无关内容、提升相关段落优先级。

注意事项

Windows 用户启动 Ollama 后，系统托盘会出现图标，表明服务已启动。
截止 2025 年 6 月，Ollama 官方暂未原生支持 Reranker 模型端点，可通过 /api/embed 接口间接调用，详情见章节“API 调用方法”。
部分主流 RAG 平台（如 Ragflow、Dify）暂不支持 Ollama 的 Reranker 模型，添加时会提示错误；经测试 FastGPT 支持 Ollama 重排模型。

更多支持 Reranker 的模型详见：https://ollama.com/search?q=reranker

dengcao/Qwen3-Reranker-8B

Qwen3-Reranker-8B 是阿里通义千问团队推出的旗舰级文本重排序模型，专为文本排序任务优化。基于 Qwen3-8B-Base 构建，在多项检索基准上表现卓越，MTEB 多语言榜 8B 参数规模下排名第一（截至 2025 年 6 月 5 日，得分 70.58）。

文档地址：https://ollama.com/dengcao/Qwen3-Reranker-8B

核心优势：

参数规模 8B，支持 100+ 种语言，上下文窗口 32k
在 MTEB 多语言检索基准上位列第一，性能超越众多商业 API 服务
支持任务指令微调，可通过自定义指令（如“按相关性排序”）优化特定领域性能，实测可提升排序准确率 3%-5%
可与 Qwen3-Embedding 模型无缝组合，构成“Embedding 快速召回 + Reranker 精细化重排”的两阶段检索流程

该模型有 5 个量化版本：

量化标签	说明
`F16`	全精度浮点 16，性能最强，显存占用最高
`Q8_0`	与 F16 几乎无法区分，资源使用率高，速度较慢
`Q5_K_M`	推荐，保留大部分性能的同时大幅缩小体积
`Q4_K_M`	性能和资源的良好平衡，适合内存紧张的场景
`Q3_K_M`	更低位量化，仅在存储/传输受限时考虑，质量损失明显

Ollama 部署 Qwen3-Reranker-8B 系列：

ollama pull dengcao/Qwen3-Reranker-8B:F16
ollama pull dengcao/Qwen3-Reranker-8B:Q8_0
ollama pull dengcao/Qwen3-Reranker-8B:Q5_K_M
ollama pull dengcao/Qwen3-Reranker-8B:Q4_K_M
ollama pull dengcao/Qwen3-Reranker-8B:Q3_K_M

dengcao/Qwen3-Reranker-4B

Qwen3-Reranker-4B 是 4B 参数版本的均衡重排序模型，基于 Qwen3-4B-Base 构建，在精度与推理速度之间取得了良好的平衡，是大多数 RAG 应用场景的性能甜点。

文档地址：https://ollama.com/dengcao/Qwen3-Reranker-4B

核心优势：

参数规模 4B，支持 100+ 种语言，上下文窗口 32k
性能显著优于 0.6B 版本，且推理速度远快于 8B 版本，适合多数生产环境部署
同样支持任务指令微调，可按需优化特定领域排序效果

该模型有 5 个量化版本：

量化标签	说明
`F16`	全精度浮点 16，原版性能，显存需求较高
`Q8_0`	与 F16 几乎无法区分，资源使用较高
`Q5_K_M`	推荐，保留模型大部分性能
`Q4_K_M`	内存节省明显，性能损失可控
`Q3_K_M`	极端压缩，仅在极端受限场景使用

Ollama 部署 Qwen3-Reranker-4B 系列：

ollama pull dengcao/Qwen3-Reranker-4B:F16
ollama pull dengcao/Qwen3-Reranker-4B:Q8_0
ollama pull dengcao/Qwen3-Reranker-4B:Q5_K_M
ollama pull dengcao/Qwen3-Reranker-4B:Q4_K_M
ollama pull dengcao/Qwen3-Reranker-4B:Q3_K_M

dengcao/Qwen3-Reranker-0.6B

Qwen3-Reranker-0.6B 是 Qwen3 系列中最轻量的重排序模型，基于 Qwen3-0.6B-Base 构建，仅 0.6B 参数，专为低资源、低延迟场景设计，适合边缘设备部署和快速原型验证。

文档地址：https://ollama.com/dengcao/Qwen3-Reranker-0.6B

核心优势：

参数规模仅 0.6B，支持 100+ 种语言，上下文窗口 32k
极致轻量，推理速度快，内存占用低
适合对延迟敏感或硬件资源有限的场景

性能提示：在低参数量下，BGE-Reranker-v2-M3 的重排序效果可能优于 Qwen3-Reranker-0.6B。硬件条件满足的情况下，建议优先使用 Qwen3-Reranker-4B 或 Qwen3-Reranker-8B 的 F16 或 Q8_0 版本以获得更好的排序精度。

该模型有 4 个已知可用量化版本：

量化标签	说明
`F16`	全精度，性能最强
`Q8_0`	接近 F16，资源使用较高
`Q5_K_M`	推荐，性能与体积的良好平衡
`Q4_K_M`	极致压缩，适合最小内存占用

Ollama 部署 Qwen3-Reranker-0.6B 系列：

ollama pull dengcao/Qwen3-Reranker-0.6B:Q8_0
ollama pull dengcao/Qwen3-Reranker-0.6B:Q5_K_M
ollama pull dengcao/Qwen3-Reranker-0.6B:Q4_K_M

dengcao/bge-reranker-v2-m3

BGE-Reranker-v2-M3 是北京智源研究院（BAAI）推出的轻量级多语言重排序模型，基于 BGE-M3-0.5B 架构优化，专为多语言检索任务设计，尤其强化了中英文混合场景下的性能。其核心定位是为 RAG 流程提供高效的上下文重排序能力，通过过滤无关内容、提升相关段落优先级，显著改善生成式 AI 的准确性和响应速度。

文档地址：https://ollama.com/dengcao/bge-reranker-v2-m3

核心优势：

轻量级架构，基于 BGE-M3-0.5B，具备强大的多语言能力，部署便捷，推理速度快
中英文混合场景表现优异，在 C-MTEB、MIRACL 等评测基准中检索精度出彩
支持通过 Ollama Embedding API 调用
经测试 FastGPT 可正常添加并使用 Ollama 部署的该模型

ollama pull dengcao/bge-reranker-v2-m3

关于量化版本的说明

量化是在模型大小和效果之间取得平衡的关键手段。以下为常用量化等级及其特点：

F16：全精度浮点 16，转换最快且保留 100% 精度，但推理慢且占用大量内存。
q8_0：与浮点数 16 几乎无法区分。资源使用率高，速度慢。不建议大多数用户使用。
q6_k：将 Q8_K 用于所有张量。
q5_k_m：将 Q6_K 用于一半的 attention.wv 和 feed_forward.w2 张量，否则 Q5_K。
q5_0：原始量化方法，5 位。精度更高，资源使用率更高，推理速度更慢。
q4_k_m：将 Q6_K 用于一半的 attention.wv 和 feed_forward.w2 张量，否则 Q4_K。
q4_0：原始量化方法，4 位。
q3_k_m：将 Q4_K 用于 attention.wv、attention.wo 和 feed_forward.w2 张量，否则 Q3_K。
q2_k：将 Q4_K 用于 attention.vw 和 feed_forward.w2 张量，Q2_K 用于其他张量。

根据经验，建议使用 Q5_K_M，因为它保留了模型的大部分性能。或者，如果要节省一些内存，可以使用 Q4_K_M。

API 调用方法

Ollama 目前不提供专用的 Reranker API 端点，但可通过 Embedding API（/api/embed）间接实现重排序功能。以下是几种调用方法：

方法一：curl 命令行调用

curl http://localhost:11434/api/embed \
  -d '{
    "model": "dengcao/bge-reranker-v2-m3",
    "input": "Why is the sky blue?"
  }'

方法二：Python ollama 库调用

import ollama

response = ollama.embed(
    model='dengcao/bge-reranker-v2-m3',
    input='The sky is blue because of Rayleigh scattering',
)
print(response['embeddings'])

方法三：JavaScript ollama 库调用

import ollama from 'ollama'

const response = await ollama.embed({
  model: 'dengcao/bge-reranker-v2-m3',
  input: 'The sky is blue because of Rayleigh scattering',
})
console.log(response.embeddings)

注意：调用 Embedding 服务时无需运行 ollama run 进入交互模式，仅需确保 Ollama 后台服务（ollama serve）已启动。

兼容性提示

如需在不兼容的平台使用重排序模型，可选择 API 服务或本地用 vLLM 部署重排序模型。

vLLM 直接部署 Qwen3-Reranker 的临时解决方法请见：

作者：Ddd4j 创建时间：2026-04-27 00:01
最后编辑：Ddd4j 更新时间：2026-04-27 00:08

上一篇： Granite Embedding
下一篇： 5、编码模型（Coding Models）

4、重排模型（Reranker Models）

Ollama 本地模型：如何选择合适的 Reranker 模型 ？

推荐的 Reranker 模型

dengcao/Qwen3-Reranker-8B

dengcao/Qwen3-Reranker-4B

dengcao/Qwen3-Reranker-0.6B

dengcao/bge-reranker-v2-m3

关于量化版本的说明

API 调用方法

方法一：curl 命令行调用

方法二：Python ollama 库调用

方法三：JavaScript ollama 库调用

兼容性提示

Ollama 本地模型：如何选择合适的 Reranker 模型？