Ollama 入门：最简单的本地 AI 模型运行方式

更新于 2025-07-01 · 预计阅读 2 分钟

知识库阅读进度100%

Ollama 是什么

Ollama 是一个本地 AI 模型运行工具，底层基于 llama.cpp。它把下载模型、配置参数、启动服务这些复杂步骤封装成了简单的命令行操作。你可以把它理解为 AI 模型的 Docker——一条命令就能拉取并运行模型。

安装和基本使用

1. 访问 ollama.com 下载安装包（支持 Windows、macOS、Linux） 2. 安装完成后，打开终端 3. 运行你的第一个模型：ollama run qwen3:8b 4. 等待下载完成，就可以开始对话了常用命令： • ollama list — 查看已下载的模型 • ollama pull qwen3:32b — 下载模型（不运行） • ollama run deepseek-r1:14b — 运行模型 • ollama rm 模型名 — 删除模型 • ollama serve — 启动 API 服务（默认端口 11434）

怎么选模型

Ollama 会根据你的硬件自动选择合适的量化版本。你也可以手动指定： • ollama run qwen3:8b — 自动选择量化版本 • ollama run qwen3:8b-q4_K_M — 指定 Q4 量化 • ollama run qwen3:8b-q8_0 — 指定 Q8 量化推荐模型（按显存）： • 4-6GB 显存：qwen3:4b、phi4-mini • 8GB 显存：qwen3:8b、llama3.1:8b • 16GB 显存：qwen3:14b、deepseek-r1:14b • 24GB 显存：qwen3:32b-q4、deepseek-r1:32b-q4

配合其他工具使用

Ollama 启动后会提供一个兼容 OpenAI 格式的 API（http://localhost:11434），可以配合很多工具使用： • Open WebUI：漂亮的网页聊天界面 • Continue：VS Code 里的 AI 编程助手 • Chatbox：桌面端聊天客户端 • Page Assist：浏览器插件，网页上直接用本地模型这些工具只需要把 API 地址指向 localhost:11434 就能用。

Ollama 入门：最简单的本地 AI 模型运行方式

Ollama 是什么

安装和基本使用

怎么选模型

配合其他工具使用

你已经看完这篇，下一步看这个

什么是 GGUF？AI 模型量化格式入门指南

显存是什么？跑 AI 模型需要多少显存？

什么是 MoE（混合专家）架构？为什么它能省显存？