Ollama 入门:最简单的本地 AI 模型运行方式

更新于 2025-07-01

Ollama 是什么

Ollama 是一个本地 AI 模型运行工具,底层基于 llama.cpp。它把下载模型、配置参数、启动服务这些复杂步骤封装成了简单的命令行操作。 你可以把它理解为 AI 模型的 Docker——一条命令就能拉取并运行模型。

安装和基本使用

1. 访问 ollama.com 下载安装包(支持 Windows、macOS、Linux) 2. 安装完成后,打开终端 3. 运行你的第一个模型:ollama run qwen3:8b 4. 等待下载完成,就可以开始对话了 常用命令: • ollama list — 查看已下载的模型 • ollama pull qwen3:32b — 下载模型(不运行) • ollama run deepseek-r1:14b — 运行模型 • ollama rm 模型名 — 删除模型 • ollama serve — 启动 API 服务(默认端口 11434)

怎么选模型

Ollama 会根据你的硬件自动选择合适的量化版本。你也可以手动指定: • ollama run qwen3:8b — 自动选择量化版本 • ollama run qwen3:8b-q4_K_M — 指定 Q4 量化 • ollama run qwen3:8b-q8_0 — 指定 Q8 量化 推荐模型(按显存): • 4-6GB 显存:qwen3:4b、phi4-mini • 8GB 显存:qwen3:8b、llama3.1:8b • 16GB 显存:qwen3:14b、deepseek-r1:14b • 24GB 显存:qwen3:32b-q4、deepseek-r1:32b-q4

配合其他工具使用

Ollama 启动后会提供一个兼容 OpenAI 格式的 API(http://localhost:11434),可以配合很多工具使用: • Open WebUI:漂亮的网页聊天界面 • Continue:VS Code 里的 AI 编程助手 • Chatbox:桌面端聊天客户端 • Page Assist:浏览器插件,网页上直接用本地模型 这些工具只需要把 API 地址指向 localhost:11434 就能用。