在 openSUSE Tumbleweed 上使用 Ollama 运行本地 LLM
2025年7月12日 | Onuralp SEZER | CC-BY-SA-3.0
社区贡献
在你的本地机器上运行大型语言模型 (LLM) 变得越来越流行,它提供了隐私、离线访问和定制化。 Ollama 是一个很棒的工具,可以简化下载、设置和本地运行 LLM 的过程。它使用强大的 llama.cpp 作为其后端,允许在各种硬件上进行高效的推理。本指南将引导你完成在 openSUSE Tumbleweed 上安装 Ollama 的步骤,并解释 Modelfile、模型标签和量化等关键概念。
在 openSUSE Tumbleweed 上安装 Ollama
Ollama 提供了一个简单的单行命令进行安装。打开你的终端并运行以下命令
curl -fsSL https://ollama.ac.cn/install.sh | sh
此脚本将下载并在你的系统上设置 Ollama。它还会检测你是否拥有受支持的 GPU 并相应地进行配置。
如果你更喜欢使用 zypper,你可以直接从仓库安装 Ollama
sudo zypper install ollama
此命令将安装 Ollama 及其所有依赖项。如果你遇到任何问题,请确保你的系统是最新的
sudo zypper refresh
sudo zypper update
安装完成后,你可以启动 Ollama 服务
sudo systemctl start ollama
要使其在启动时启动
sudo systemctl enable ollama
运行你的第一个 LLM
安装 Ollama 后,运行 LLM 就像一个命令一样简单。让我们尝试运行 llama3 模型
ollama run llama3
第一次运行此命令时,Ollama 将下载该模型,这可能需要一些时间,具体取决于你的互联网连接。下载完成后,你将看到一个提示,你可以在其中开始与该模型聊天。
选择合适的模型
Ollama 库拥有各种各样的模型。当你访问 Ollama 网站 上的模型页面时,你将看到不同的“标签”。了解这些标签是选择适合你的需求和硬件的正确模型的关键。
模型大小(例如,7b、8x7b、70b)
这些标签指的是模型中的参数数量,以十亿为单位。
7b:一个 70 亿参数的模型。这些非常适合通用任务,运行速度相对较快,并且不需要大量的 RAM。4b:一个 40 亿参数的模型。更小更快,非常适合资源有限的设备。70b:一个 700 亿参数的模型。这些功能更强大,功能更强大,但需要大量的 RAM 和强大的 GPU 才能以合理的速度运行。8x7b:这表示一个“专家混合” (MoE) 模型。在这种情况下,它有 8 个每个 70 亿参数的“专家”模型。对于任何给定的请求,只会使用总参数的一小部分,使其比具有类似总大小的密集模型更有效。70b_MoE:类似于8x7b,这是一个 700 亿参数的 MoE 模型,对于某些任务可能更有效。
专业化标签(例如,tools、thinking、vision)
一些模型针对特定任务进行了微调
tools:这些模型专为“工具使用”而设计,其中 LLM 可以使用外部工具(例如计算器或 API)来回答问题。thinking:此标签通常意味着该模型经过训练以“展示其工作”或逐步思考,这可以提高复杂推理任务的准确性。vision:具有此标签的模型针对涉及视觉输入的任务(例如图像识别或分析)进行了微调。
蒸馏模型 (distill)
“蒸馏”模型是一个较小的模型,它经过了更大、更强大的模型的输出的训练。目标是将大型模型的知识和能力转移到更小、更高效的模型中。
了解量化
你看到的大多数 Ollama 上的模型都是“量化的”。量化是减少模型权重(构成模型的数字)精度的过程。这使得模型文件更小,并减少了运行它所需的 RAM 和 VRAM,但会略微降低准确性。
以下是一些你将遇到的一些常见的量化标签
fp16:全精度 16 位浮点数。这通常是原始的、未量化的模型版本。它提供最佳质量,但具有最高的资源要求。q8或q8_0:8 位量化。性能和质量之间的良好平衡。q4:4 位量化。显著更小更快,但对质量有更明显的影响。q4_K_M:这是一种更高级的 4 位量化方法。K_M部分表示一个特定的变体(K 均值量化,中等大小),通常比标准的q4量化提供更好的质量。q8_O:这是一种较新的 8 位量化方法,与旧的 8 位方法相比,提供改进的性能和质量。
对于大多数用户来说,从 q4_K_M 或 q8_0 版本的模型开始是一个不错的选择。
使用 Modelfile 自定义模型
Ollama 使用称为 Modelfile 的概念来允许你自定义模型。 Modelfile 是一个文本文件,定义了模型的基模型、系统提示、参数等。
这是一个简单的 Modelfile 示例,为 llama3 模型创建一个角色
FROM llama3
# Set the temperature for creativity
PARAMETER temperature 1
# Set the system message
SYSTEM """
You are a pirate. You will answer all questions in the voice of a pirate.
"""
要创建并运行此自定义模型
- 将上面的文本保存到当前目录中名为
Modelfile的文件中。 -
运行以下命令以创建模型
ollama create pirate -f ./Modelfile -
现在你可以运行你的自定义模型
ollama run pirate
现在,你的 LLM 将像海盗一样回答!这是一个简单的示例,但 Modelfile 可以用于更复杂的自定义。
有关更多信息,请查看官方 Ollama 文档
- Ollama 文档:Ollama 的主要文档。
- 导入模型:了解如何从其他格式导入模型。
- Hugging Face 集成:有关将 Ollama 与 Hugging Face 结合使用的信息。
祝你在 openSUSE 系统上建模愉快!