Ollama 应用实践:如何选择合适的 Chat 模型 ?

选择合适的聊天模型(Chat model)对于确保对话系统的性能和适用性至关重要。Ollama 提供了多种 Chat 模型,每种模型都有其特点和最佳使用场景。以下是一些关键因素,可以帮助您在使用 Ollama 时做出选择:

1. 应用场景和需求识别

  • 评估您的对话系统是否需要处理特定主题或行业术语。
  • 确定是否需要多语言支持,以及这些语言的对话复杂性。

2. 模型规模与资源匹配

  • 根据可用的计算资源,选择合适大小的模型,平衡性能和资源消耗。
  • 考虑模型的上下文窗口大小,确保它能够处理预期的对话深度和长度。

3. 性能与优化

  • 查看模型的性能评估和基准测试结果,了解其在类似应用场景中的表现。
  • 选择针对对话任务优化过的模型,特别是那些经过特定场景微调的版本。

4. 法律与伦理合规性

  • 确保所选模型的使用遵守数据保护法规和伦理准则。
  • 考虑模型可能产生的偏见和误解,并选择那些注重公平性和透明度的模型。

5. 社区支持与文档完善度

  • 选择有活跃社区支持的模型,这通常意味着更好的问题解决和资源共享。
  • 确保模型有详尽的文档,包括安装指南、使用案例和API参考。

通过考虑这些因素,您可以确保选择的模型不仅满足当前的技术需求,而且也符合长期的业务和合规要求。记住,最合适的模型不一定是最大的模型,而是最符合您特定需求的模型。

推荐的 Chat 模型

Ollama Chat 模型是一个基于大型语言模型的对话系统,支持对话问答、文本生成等功能。

模型 参数大小
DeepSeek-V2 16B 查看模型
Llama 3.1 8B 查看模型
Llama 3 8B 查看模型
Mistral NeMo 12B 查看模型
Mistral Large 2 123B 查看模型
GLM-4 9B 查看模型
Google Gemma 2 9B 查看模型
Google Gemma 8B 查看模型
Phi-3 Mini 3.8B 查看模型
Phi-3 Medium 14B 查看模型
Qwen2 7B 查看模型

DeepSeek-V2

DeepSeek-V2 是一种强大的混合专家 (MoE) 语言模型,具有经济的训练和高效的推理特点。

:此模型为中英文双语。

该模型有两种尺寸:
  • 16B Lite:ollama run deepseek-v2:16b
  • 236B:ollama run deepseek-v2:236b

Llama 3.1

Llama 3.1 是 Meta 推出的一款新型先进模型,有 8B、70B 和 405B 参数尺寸可供选择。

ollama run llama3.1

Llama 3

Meta Llama 3 是 Meta Inc. 开发的一系列模型,是最新推出的先进模型,具有8B和70B两种参数大小(预训练或指令调整)。

Llama 3 指令调整模型针对对话/聊天用例进行了微调和优化,并且在常见基准测试中胜过许多可用的开源聊天模型。

模型变体

Instruct 是针对聊天/对话场景进行了fine-tuned

ollama run llama3
ollama run llama3:70b

Pre-trained 的是基础模型。

ollama run llama3:text
ollama run llama3:70b-text

注意: 安装 ollama run llama3 将下载一个 4.7GB 的 docker 镜像。

Mistral NeMo

Mistral NeMo 是由 Mistral AI 与 NVIDIA 合作构建的最先进的 12B 模型。Mistral NeMo 提供高达 128k 个 token 的大型上下文窗口。其推理、世界知识和编码准确性在同类规模中处于领先地位。由于它依赖于标准架构,Mistral NeMo 易于使用,并且是使用 Mistral 7B 的任何系统中的直接替代品。

ollama run mistral-nemo

Mistral Large 2

Mistral Large 2 是 Mistral 的新旗舰型号,其代码生成、数学和推理能力显著增强,具有 128k 上下文窗口并支持数十种语言。

Mistral-Large-Instruct-2407 是一种先进的密集大型语言模型 (LLM),具有 123B 参数和最先进的推理、知识和编码能力。

主要特征

  • 多语言设计:支持数十种语言,包括英语、法语、德语、西班牙语、意大利语、中文、日语、韩语、葡萄牙语、荷兰语和波兰语。

  • 精通编码:接受过 80 多种编码语言的培训,例如 Python、Java、C、C++、JavacScript 和 Bash。还接受过更具体的语言的培训,例如 Swift 和 Fortran。

  • 以代理为中心:具有本机函数调用和 JSON 输出的最佳代理功能。

  • 高级推理:最先进的数学和推理能力。

  • Mistral 研究许可证:允许出于研究和非商业用途的使用和修改。

  • 大上下文:一个大的 128k 上下文窗口。

  • 文档地址:https://ollama.com/library/mistral-large

ollama run mistral-large

GLM-4

GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。在语义、数学、推理、代码和知识等多方面的数据集测评中,GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出超越 Llama-3-8B 的卓越性能。除了能进行多轮对话,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理(支持最大 128K 上下文)等高级功能。本代模型增加了多语言支持,支持包括日语,韩语,德语在内的 26 种语言。我们还推出了支持 1M 上下文长度(约 200 万中文字符)的 GLM-4-9B-Chat-1M 模型和基于 GLM-4-9B 的多模态模型 GLM-4V-9B。GLM-4V-9B 具备 1120 * 1120 高分辨率下的中英双语多轮对话能力,在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中,GLM-4V-9B 表现出超越 GPT-4-turbo-2024-04-09、Gemini1.0 Pro、Qwen-VL-Max 和 Claude 3 Opus 的卓越性能。

ollama run glm4

Google Gemma 2

Google 的 Gemma 2 型号有两种尺寸:9B 和 27B,采用全新的架构设计,可实现一流的性能和效率。

一流的性能

Gemma 2 拥有 270 亿个参数,其性能在基准测试中超越了比其规模大两倍的模型。这一突破性的效率为开放模型领域树立了新标准。

两种尺寸:9B 和 27B 参数
  • 9B 参数:ollama run gemma2
  • 27B 参数:ollama run gemma2:27b

Google Gemma

Gemma 是 Google 及其 DeepMind 团队开发的一种新开放模型。其灵感来自 Google 的 Gemini 模型。

Gemma 有两种2b尺寸7b:

  • ollama run gemma:2b
  • ollama run gemma:7b(默认)

文档地址:https://ollama.com/library/gemma

ollama run gemma:2b

Phi-3

Phi-3 是微软推出的轻量级 3B(迷你)和 14B(中型)先进开放模型系列。

文档地址:https://ollama.com/library/phi3

参数大小

  • Phi-3 Mini – 3B 参数 – ollama run phi3:mini
  • Phi-3 Medium – 14B 参数 – ollama run phi3:medium
Phi-3 Mini

Phi-3 Mini 是一个拥有 38 亿参数的轻量级、最先进的开放模型,使用 Phi-3 数据集进行训练,该数据集包含合成数据和经过过滤的公开网站数据,重点关注高质量和推理密集属性。

该模型经历了后期训练过程,结合了监督微调和直接偏好优化,以确保精确遵守指令和强有力的安全措施。

在根据常识、语言理解、数学、代码、长上下文和逻辑推理的基准测试进行评估时,Phi-3 Mini-4K-Instruct 在参数少于 130 亿的模型中展现出了强大且最先进的性能。

ollama run phi3:mini
Phi-3 Medium

Phi-3 Medium 是一个 14B 参数语言模型,其性能优于 Gemini 1.0 Pro。

ollama run phi3:medium

Qwen2

Qwen2 是阿里巴巴集团推出的全新系列大型语言模型。
Qwen2基于29 种语言的数据进行训练,包括英语和中文。

它有 4 种参数大小:0.5B、1.5B、7B、72B。
在 7B 和 72B 模型中,上下文长度已扩展至128k 个 token。

Models Qwen2-0.5B Qwen2-1.5B Qwen2-7B Qwen2-72B
Params 0.49B 1.54B 7.07B 72.71B
Non-Emb Params 0.35B 1.31B 5.98B 70.21B
GQA True True True True
Tie Embedding True True False False
Context Length 32K 32K 128K 128K

注意: 安装 ollama run qwen2 将下载一个 4.4GB 的 docker 镜像。

作者:Jeebiz  创建时间:2024-07-09 11:56
最后编辑:Jeebiz  更新时间:2024-08-29 20:41