Eigener KI-Server mit Ollama

Die folgenden Abschnitte enthalten Hinweise, wie Sie einen eigenen KI-Server mit Ollama einrichten können. Ollama ist eine lokale Laufzeitumgebung für LLMs, die relativ einfach zu installieren und zu bedienen ist. Die Hinweise richten sich an Entwickler oder Administratoren, die LLMs wie LLaMA, Mistral oder andere lokal hosten möchten.

Hinweis: Die vorliegende Dokumentation beschreibt lediglich eigene Erfahrungen und erhebt keinen Anspruch auf Aktualität und Vollständigkeit. Für die Ollama-Dokumentation siehe ollama Documentation.

Einrichten eines KI-Servers mit Ollama

Voraussetzungen: Sie benötigen die entsprechende Hardware, um einen KI-Server zu betreiben. Die KI-Modell benötigen ausreichend Speicherplatz und eine stabile Internetverbindung. Die folgenden Hinweise beziehen sich auf ein Linux-Betriebssystem oder Windows mit WSL2.

Öffnen Sie das Terminal und installieren Sie Ollama:
```
curl -fsSL https://ollama.com/install.sh | sh
```
Starten Sie den Server lokal:
```
ollama serve
```
Laden Sie die gewünschten Sprachmodelle. Beispiele:
```
ollama run gemma3
ollama run mistral
```
Ergebnis: Ollama lädt das jeweilige Modell automatisch herunter.
Lassen Sie sich eine Liste der lokal vorhandenen Modelle ausgeben:
```
ollama list
```
Überprüfen Sie, welche Modelle aktuell geladen sind:
```
ollama ps
```
Stoppen Sie bei Bedarf ein Modell:
```
ollama stop llama3.2
```
Testen Sie das Modell: Um ein Modell zu testen und mit ihm zu kommunizieren, geben Sie einfach Fragen oder Anweisungen direkt im Terminal ein.
Nach den ersten Tests empfiehlt es sich, ollama als Dienst einzurichten.
Für den Netzwerkzugriff müssen Sie ggf. Ports für andere Geräte im Netzwerk freigeben.

Ergebnis: Nachdem Sie Ollama installiert und eins oder mehrere Modelle geladen haben, können Sie die Verwendung in agorum core ai einrichten, siehe agorum core ai einrichten.

Ollama Best Practices

Kontextgröße (num_ctx) bei ollama-Modellen anpassen

Viele über ollama bereitgestellte KI-Modelle haben standardmäßig eine zu kleine Kontextgröße (num_ctx), was zu Problemen bei der Nutzung führen kann. Um ein Modell mit angepasster Kontextgröße zu verwenden, sind folgende Schritte notwendig (am Beispiel llama 3.2):

Führen Sie folgenden Befehl aus, um das gewünschte Modell zu installieren bzw. zu aktualisieren:
```
ollama pull llama3.2
```
Führen Sie folgenden Befehl aus, um den genauen Modellnamen zu ermitteln:
```
ollama list
```

Exportieren Sie die Modelldatei mit folgendem Befehl:

ollama show --modelfile llama3.2:latest > custom_llama_3_2.modelfile

Passen Sie die Kontextgröße an, indem Sie die Modelldatei öffnen und am Ende folgende Zeile hinzufügen:
```
PARAMETER num_ctx 32000
```

Erstellen Sie ein neues, angepasstes Modell mit:

ollama create custom_llama_3_2 --file custom_llama_3_2.modelfile

Laden Sie das neue Modell:
```
ollama run custom_llama_3_2
```
Ergebnis: Das angepasste Modell kann nun in Ollama verwendet werden.