Kompakte NVIDIA DGX Spark Hardware auf einem Schreibtisch mit Monitor, der eine KI-Chat-Oberfläche zeigt, symbolisiert den lokalen Betrieb von Gemma 4 im Unternehmen

Warum ist Gemma 4 26B A4B IT ein Meilenstein für lokale KI?

Gemma 4 26B A4B IT ist ein Open-Weight-Modell von Google DeepMind, das am 2. April 2026 veröffentlicht wurde. Es basiert auf derselben Forschung und Technologie wie Googles proprietäres Gemini 3 und nutzt eine Mixture-of-Experts-Architektur (MoE): Von den insgesamt 26 Milliarden Parametern werden pro Token nur 3,8 Milliarden aktiviert. Das Ergebnis ist eine Kombination aus hoher Leistung und bemerkenswerter Effizienz.

Wir haben Gemma 4 26B A4B IT auf unserer NVIDIA DGX Spark getestet und können bestätigen: Dieses Modell übertrifft in unseren internen Benchmarks den bisherigen Favoriten gpt-oss-120b. Es ist leistungsstärker, unterstützt Bildverarbeitung und bietet ein doppelt so großes Kontextfenster. Gleichzeitig funktioniert es direkt und nahtlos mit ALBERT | AI.

Gemma 4 26B A4B IT ist damit unsere neue Empfehlung für den Betrieb lokaler KI im Unternehmen.

Welche technischen Eigenschaften bringt Gemma 4 26B A4B IT mit?

Gemma 4 gehört zur vierten Generation der Gemma-Modellfamilie und wird von Google DeepMind unter einer Apache-2.0-Lizenz veröffentlicht. Das erlaubt die kommerzielle Nutzung, Anpassung und den lokalen Betrieb ohne Einschränkungen.

Die wichtigsten technischen Fakten des Modells Gemma 4 26B A4B IT im Überblick:

  • Architektur: Mixture of Experts (MoE) mit 26 Milliarden Gesamtparametern, davon 3,8 Milliarden aktive Parameter pro Token (laut Google AI for Developers)
  • Kontextfenster: 256.000 Tokens (doppelt so viel wie die 128.000 Tokens von gpt-oss-120b)
  • Multimodalität: Verarbeitet Text, Bilder und Video nativ, inklusive variabler Auflösungen und Seitenverhältnisse
  • Agentische Fähigkeiten: Natives Function-Calling, strukturierter JSON-Output und native System-Prompt-Unterstützung
  • Sprachen: Nativ auf über 140 Sprachen trainiert
  • Speicherbedarf: Ca. 48 GB in BF16, ca. 25 GB in SFP8, ca. 15,6 GB in Q4_0 (laut offizieller Dokumentation)
  • Lizenz: Apache 2.0, kommerziell nutzbar

Die MoE-Architektur sorgt dafür, dass trotz der Gesamtgröße von 26 Milliarden Parametern nur ein Bruchteil pro Anfrage aktiviert wird. Das bedeutet: schnellere Inferenz bei geringerem Rechenaufwand, ohne Kompromisse bei der Ergebnisqualität.

Wie schlägt sich Gemma 4 im Vergleich zu gpt-oss-120b?

In unserem vorangegangenen Erfahrungsbericht haben wir detailliert beschrieben, wie wir gpt-oss-120b auf der NVIDIA DGX Spark zum Laufen gebracht haben. Dieses Modell war bis dato unser klarer Favorit für lokale KI. Mit Gemma 4 26B A4B IT ändert sich das.

Hier die direkten Vergleichspunkte aus unseren Tests:

  • Leistung: Gemma 4 26B A4B IT übertrifft gpt-oss-120b in unseren internen Benchmarks. Es besteht alle lokalen Tests, die bisher nur gpt-oss-120b geschafft hat.
  • Geschwindigkeit: Ungefähr vergleichbar mit gpt-oss-120b, subjektiv angenehm schnell auf der DGX Spark
  • Kontextfenster: 256.000 Tokens (Gemma 4) gegenüber 128.000 Tokens (gpt-oss-120b). Das ist eine Verdopplung, die besonders bei umfangreichen Dokumenten den Unterschied macht.
  • Bildverarbeitung: Gemma 4 kann Bilder und Handschrift verarbeiten und erkennen. gpt-oss-120b unterstützt keine Bildverarbeitung.
  • Agentische KI: Gemma 4 unterstützt natives Function-Calling. Bei gpt-oss-120b mussten wir erheblichen Aufwand betreiben, um Tool-Calling zuverlässig zum Laufen zu bringen.

In den offiziellen Benchmarks von Google DeepMind erreicht Gemma 4 26B A4B IT unter anderem 82,6 % bei MMMLU (multilinguale Fragen und Antworten), 88,3 % bei AIME 2026 (Mathematik), 77,1 % beim LiveCodeBench v6 (Coding) und 85,5 % beim τ2-bench für agentischen Tool-Einsatz (Quelle: Google DeepMind Gemma 4).

Auf dem Arena AI Text-Leaderboard belegt Gemma 4 26B A4B IT aktuell Platz 6 unter allen Open-Weight-Modellen weltweit und konkurriert dabei mit Modellen, die 20-mal so groß sind (Quelle: Google Blog, April 2026).

Entwicklerarbeitsplatz mit kompaktem KI-Server und Code-Terminal, bereit für die Integration von Gemma 4 in ALBERT | AI

Wie funktioniert die Integration in ALBERT | AI?

Die Integration von Gemma 4 26B A4B IT in ALBERT | AI von agorum core verläuft genauso unkompliziert wie bei jedem anderen lokalen Modell: Sobald auf der NVIDIA DGX Spark ein Inference-Server (wie vLLM) läuft, der eine OpenAI-kompatible API bereitstellt, wird lediglich die URL dieses Servers in den KI-Voreinstellungen von ALBERT | AI hinterlegt.

In unserem Test haben wir Gemma 4 26B A4B IT über vLLM auf der DGX Spark bereitgestellt und direkt aus ALBERT | AI heraus genutzt. Die Anbindung funktionierte auf Anhieb, ohne zusätzliche Konfiguration oder Workarounds.

Das ist ein deutlicher Fortschritt gegenüber gpt-oss-120b, bei dem wir zunächst ein spezielles Docker-Image bauen, tiktoken-Encodings manuell herunterladen und spezifische Parameter für Tool-Calling konfigurieren mussten.

Gemma 4 funktioniert direkt und nahtlos mit ALBERT | AI. Das unterstreicht den Multi-LLM-Ansatz von agorum core: Egal welches KI-Modell morgen kommt, ALBERT | AI ist darauf vorbereitet.

Welche neuen Möglichkeiten eröffnet Gemma 4 für lokale KI?

In unserem vorangegangenen Erfahrungsbericht haben wir die Einschränkungen lokaler KI-Modelle klar benannt: keine Bildverarbeitung, begrenzte Kontextfenster und Herausforderungen bei komplexer agentischer KI. Gemma 4 26B A4B IT adressiert gleich mehrere dieser Punkte:

Bildverarbeitung und Handschrifterkennung

gpt-oss-120b konnte keine Bilder verarbeiten. Das war eine der größten Einschränkungen für den produktiven Einsatz lokaler KI. Gemma 4 ändert das grundlegend: Das Modell verarbeitet Bilder und Video nativ, mit variabler Auflösung und verschiedenen Seitenverhältnissen. In unseren Tests hat es auch Handschrift zuverlässig erkannt. Für Unternehmen, die Dokumente mit eingescannten Inhalten, Fotos oder handschriftlichen Notizen verarbeiten müssen, ist das ein erheblicher Zugewinn.

Doppeltes Kontextfenster

Mit 256.000 Tokens bietet Gemma 4 das doppelte Kontextfenster gegenüber den 128.000 Tokens von gpt-oss-120b. Das bedeutet: Umfangreichere Dokumente, längere Repositories oder ganze Vertragswerke können in einem einzigen Prompt verarbeitet werden, ohne dass das Modell Informationen vom Anfang „vergisst“.

Agentische KI mit nativem Function-Calling

Gemma 4 bringt natives Function-Calling und strukturierten JSON-Output mit. In unserem früheren Test mit gpt-oss-120b war genau das ein Schmerzpunkt: Tool-Calls wurden zwar angekündigt, aber nicht tatsächlich gesendet. Erst mit einem speziellen Docker-Image und expliziten vLLM-Parametern konnten wir das Problem lösen. Bei Gemma 4 funktioniert agentische KI direkt und zuverlässig.

Was bedeutet die Mixture-of-Experts-Architektur für den Betrieb?

Die MoE-Architektur von Gemma 4 26B A4B IT verdient eine gesonderte Erklärung, weil sie direkte Auswirkungen auf den praktischen Betrieb hat.

Bei einem herkömmlichen Dense-Modell wie gpt-oss-120b werden bei jeder Anfrage alle 120 Milliarden Parameter aktiviert. Das erfordert entsprechend viel Rechenleistung und Speicher. Gemma 4 26B A4B IT arbeitet anders: Von den 26 Milliarden Gesamtparametern werden pro Token nur 3,8 Milliarden aktiviert. Das Modell „routet“ jede Anfrage intelligent zu den jeweils spezialisierten Experten-Modulen.

Laut der offiziellen Dokumentation von Google müssen dennoch alle 26 Milliarden Parameter in den Speicher geladen werden, um schnelles Routing und Inferenz zu gewährleisten. Der GPU-Speicherbedarf liegt daher bei ca. 48 GB in voller Präzision (BF16) und ca. 15,6 GB bei 4-Bit-Quantisierung (Q4_0).

Für den Betrieb auf der NVIDIA DGX Spark mit ihren 128 GB Unified Memory bedeutet das: Gemma 4 26B A4B IT läuft komfortabel mit vollem Kontextfenster, während bei gpt-oss-120b der Speicher deutlich knapper bemessen war.

Unsere aktualisierte Empfehlung für lokale KI

Auf Basis unserer Tests aktualisieren wir unsere Empfehlung: Gemma 4 26B A4B IT ist unsere neue erste Wahl für den Betrieb lokaler KI im Unternehmen.

Die Gründe im Überblick:

  • Leistungsstärker als gpt-oss-120b in unseren internen Benchmarks
  • Agentische KI mit nativem Function-Calling möglich
  • Bildverarbeitung und Handschrifterkennung nativ unterstützt
  • Vergleichbare Geschwindigkeit wie gpt-oss-120b auf der DGX Spark
  • Besteht alle unsere lokalen Benchmarks (bisher nur gpt-oss-120b)
  • 256.000 Tokens Kontextfenster (doppelt so viel wie gpt-oss-120b)
  • Funktioniert direkt und nahtlos mit ALBERT | AI
  • Apache-2.0-Lizenz für uneingeschränkten kommerziellen Einsatz

Für Unternehmen, die auf Datensouveränität setzen und ihre KI-Modelle lokal betreiben möchten, ist Gemma 4 26B A4B IT die derzeit beste verfügbare Option. In Kombination mit agorum core und ALBERT | AI entsteht eine KI-Plattform, die vollständig unter eigener Kontrolle läuft und keine Daten an externe Dienste übermittelt.

Der Bereich lokaler KI entwickelt sich mit hohem Tempo weiter. Was heute die beste Empfehlung ist, kann in wenigen Monaten durch ein noch leistungsfähigeres Modell abgelöst werden. Genau dafür ist der Multi-LLM-Ansatz von ALBERT | AI ausgelegt: Das Modell wechseln, ohne die Infrastruktur neu aufzubauen.

Jetzt Beratungsgespräch anfordern

FAQ Häufig gestellte Fragen zu Gemma 4 26B A4B IT als lokales KI-Modell

Bitmi