Ollama × 魔搭社区：超简单的大模型本地部署方案

Ollama × 魔搭社区：超简单的大模型本地部署方案随着大模型的不断发展，小参数模型的能力也在逐渐进步，就拿阿里最新开源的qwen3来说，其中有负责多模态的qwen3-vl系列和专为代码优化的qwen3-code系列等，这些不同使用场景中都有开源的小参数模型来方便我们本地部署。
那开源部署小模型的好处有什么呢？小天认为至少有以下优势：
数据私有化：数据不出网，适合政企、学习或医院等对隐私要求高的场景。
无网络依赖：离线即可使用，不依赖网络。
成本大幅下降：本地推理成本降到最低（电费），比调用大模型api要省钱太多了。
微调门槛低：小模型比起大模型所需的庞大的资源来说更适合微调，小模型微调之后在特定领域的能力可以媲美甚至超过大模型。（微调可以理解为：用单独领域的数据集对模型再次训练使其专业化）
在应用落地方面，比如一些agent应用的落地，更离不开本地模型的部署，那说了这么多，如何正确的本地部署一个大模型呢？小天这里只推荐两种方法，这两种方法也是当下比较正确和常用的
通过Ollama工具快捷部署
通过vLLM高性能推理框架部署
本篇文章先讲通过ollama部署本地模型的方法。
那在本地部署之前，我们应该先明白当前的电脑配置能够运行什么参数的模型，不然我们辛辛苦苦下载了几十G的模型文件后，发现根本跑不动就尴尬了。
这里小天给大家一个可以快速估算的公式（最好自己电脑显存比这个结果多一些），如下图：
比如下面这个模型，部署它大概需要的显存的计算逻辑为：(8x8)/ 8x1.2=9.6G，也就是3060 12G显卡就可以跑，而且这个多模态的小模型能力也是相当不错。
这里涉及到两个概念：1.模型参数量 2.参数位宽。这俩个概念对于本地部署模型来说极其的重要，所以我觉得有必要说一下。
说之前大家要先了解一下魔搭社区，魔搭社区是阿里云的一个开源模型市场，里面有各种可下载的预训练好的模型以及数据集等，就像是中国版的Hugging Face。
链接：https://www.modelscope.cn/home
我们可以打开国内的模型市场——魔搭社区，然后搜索qwen3。
可以看到这些都有一个xxB的相关字样，比如30B、8B、235B这些字样，这些就是指得参数量，参数量越大就代表其掌握的知识越多，同时需要的显存越大！就比如图片上那个235B的模型需要的显存是500多G。这么大的显存，部署成本是相当大的。
我们点进去一个通义千问3-32B的模型中，在右侧部分可以看到这个模型的系谱，其中可以找到量化这一个分类。
点击这个分类，可以看到当前模型的量化版本，所谓量化其实就是指的是让模型尽量不变笨的情况下，节省部署显存。比如刚刚说的235B的模型经过4bit量化后，需要的显存就从500G降为了150G左右。
通过上图圈起来的部分，可以看到32B参数的qwen3文本对话模型的名称中包含，AWQ、FP8、GGUF、GPTQ，这些模型标识，对应的含义大家可以看下面这幅图：
其中AWQ是阿里最推荐的量化方法，你可以看到AWQ量化后的模型下载量一般都是最多的，而GGUF的模型格式则是我们接下来要讲的ollama主要支持的模型格式。这里要注意ollama主要支持的是gguf格式，而vllm可以支持绝大多数的模型格式，所以企业应用中大都是使用vllm部署模型而ollama多用于个人应用。
下面这些参数就代表了模型 的位宽，比如FP8就是8bit的，GPTQ-Int4就是4bit的，同理GPTQ-Int8也是8bit的，INT4就是4bit的。默认的AWQ和GGUF方法则是4bit的位宽。
可能第一时间有点不好理解所以小天给大家总结一下，显存资源有限情况下，一般vLLM框架来说使用AWQ量化后即可，但如果你要使用ollama就用GGUF格式的。
作者：Jeebiz  创建时间：2025-10-19 12:43
最后编辑：Jeebiz  更新时间：2025-12-07 22:21