Ollama 入门:最简单的本地 AI 模型运行方式
更新于 2025-07-01
Ollama 是什么
Ollama 是一个本地 AI 模型运行工具,底层基于 llama.cpp。它把下载模型、配置参数、启动服务这些复杂步骤封装成了简单的命令行操作。
你可以把它理解为 AI 模型的 Docker——一条命令就能拉取并运行模型。
安装和基本使用
1. 访问 ollama.com 下载安装包(支持 Windows、macOS、Linux)
2. 安装完成后,打开终端
3. 运行你的第一个模型:ollama run qwen3:8b
4. 等待下载完成,就可以开始对话了
常用命令:
• ollama list — 查看已下载的模型
• ollama pull qwen3:32b — 下载模型(不运行)
• ollama run deepseek-r1:14b — 运行模型
• ollama rm 模型名 — 删除模型
• ollama serve — 启动 API 服务(默认端口 11434)
怎么选模型
Ollama 会根据你的硬件自动选择合适的量化版本。你也可以手动指定:
• ollama run qwen3:8b — 自动选择量化版本
• ollama run qwen3:8b-q4_K_M — 指定 Q4 量化
• ollama run qwen3:8b-q8_0 — 指定 Q8 量化
推荐模型(按显存):
• 4-6GB 显存:qwen3:4b、phi4-mini
• 8GB 显存:qwen3:8b、llama3.1:8b
• 16GB 显存:qwen3:14b、deepseek-r1:14b
• 24GB 显存:qwen3:32b-q4、deepseek-r1:32b-q4
配合其他工具使用
Ollama 启动后会提供一个兼容 OpenAI 格式的 API(http://localhost:11434),可以配合很多工具使用:
• Open WebUI:漂亮的网页聊天界面
• Continue:VS Code 里的 AI 编程助手
• Chatbox:桌面端聊天客户端
• Page Assist:浏览器插件,网页上直接用本地模型
这些工具只需要把 API 地址指向 localhost:11434 就能用。