Key Takeaways: Das nimmst du aus dem Webinar mit

  • Verschlüsselungslücke bei LLMs: Daten müssen auf der GPU im Klartext vorliegen. Encryption in Use ist heute kein gelöstes Problem.
  • US Cloud Act: US-Behörden können Herausgabe von Daten verlangen – unabhängig vom physischen Serverstandort.
  • Datenschutz heißt Kontrolle: Über die Infrastruktur und über den Zugang. Bei On-Premises ist das im besten Fall nur dein Unternehmen.
  • Lokale KI ist praxistauglich: Bis zu 300 Tokens pro Sekunde für einen User – das Zehnfache vieler Cloud-Dienste.
  • Plug-and-Play-Hardware: Schlüsselfertige KI-Server auf NVIDIA Blackwell-Architektur, Updates alle zwei bis drei Wochen, auch air-gapped per USB-Stick.
  • Multi-LLM-fähig: Gemma, GPT-OSS, Qwen – das Modell ist wechselbar, die Plattform bleibt.

Am 19. Mai 2026 fand das Webinar „Lokale KI im Unternehmen datenschutzkonform – was lokale Sprachmodelle heute leisten“ statt. Tino Bächtold, studierter Physiker und Geschäftsführer der On-Prem AI, sowie Oliver Schulze, CEO der agorum® Software GmbH, lieferten eine ehrliche Bestandsaufnahme: Welche Modelle sind heute einsatzbereit? Welche Aufgaben lösen sie zuverlässig? Und wo bleibt der Mensch weiterhin gefragt?

Dieser Rückblick fasst die zentralen Erkenntnisse und die Live-Demo zusammen. Keine Marketingversprechen – nur das, was die Redner im Webinar wirklich gezeigt und gesagt haben.

Moderner Serverraum mit kompaktem KI-Server-Rack und blauen LED-Statusanzeigen für lokalen Betrieb

Welche Lücke in der Verschlüsselung machen Large Language Models sichtbar?

Tino Bächtold begann seinen Vortrag mit einer klaren Einordnung. Es gibt grundsätzlich drei Paradigmen innerhalb der Verschlüsselung: Encryption at Rest, Encryption in Transit und Encryption in Use.

Die ersten beiden sind weitgehend gelöste Probleme. Daten lassen sich verschlüsselt in einer Infrastruktur ablegen und verschlüsselt zwischen zwei Endpunkten übertragen. Ganz anders sieht es bei Large Language Models aus.

Warum LLMs immer im Klartext arbeiten

Wenn ein Anbieter einen Vektorindex über deine Daten anlegt, eine Keyword-Extraktion durchführt oder eine Zusammenfassung erzeugt, passiert das grundsätzlich im Klartext auf der Grafikkarte. Es gibt derzeit keine praxistaugliche Technologie, die das verschlüsselt erlauben würde. Tino Bächtold formulierte es im Webinar so: „Es gibt derzeit keine praxistaugliche Technologie, die es erlaubt, das irgendwie verschlüsselt hinzubekommen.“

Das ist kein Problem, das Anbieter wie Google oder andere gelöst hätten – es ist eine ungelöste Herausforderung der gesamten Branche. Tino Bächtold nennt es eine „Lücke in der Verschlüsselung“.

Die Konsequenz für deine Strategie

Im Zeitalter von Large Language Models hat die Frage „Sind meine Daten verschlüsselt?“ ihre Relevanz verloren. Die entscheidende Frage lautet: Wer hat Zugang zu meinen Daten? Bei On-Premise ist das im besten Fall ausschließlich dein Unternehmen. Bei einer Cloud-Lösung sind es plötzlich mehrere Parteien.

Modernes Büro mit Bildschirm voller blauer Datenströme und schlankem Server-Rack als Sinnbild für Datensouveränität

Warum ist der Serverstandort beim Cloud Act irrelevant?

Tino Bächtold thematisierte im Webinar den US Cloud Act und brachte das Problem auf den Punkt: Der Cloud Act sagt grundsätzlich, dass US-Behörden die Herausgabe von Daten verlangen können, unabhängig vom physischen Serverstandort.

Das bedeutet konkret: Es ist diesbezüglich vollkommen egal, ob du eine europäische Lösung mit einem Servercenter in Frankfurt nutzt, ob die Daten in Europa liegen oder im Silicon Valley. Was zählt, ist die Nationalität des Anbieters.

Warum Anonymisierung allein nicht genügt

Du kannst Daten anonymisieren oder Bestandteile schwärzen. Das ist sicherlich gut und richtig – Tino Bächtold hält das aber für „auf gewisse Art ein bisschen anachronistisch“, Dinge zu schwärzen wie vor sechzig oder siebzig Jahren. Der Grund: Large Language Models arbeiten nicht mit Schlüsselwörtern, sondern mit Bedeutung. Sie sind semantische Maschinen.

Ein Embedding-Vektor hat gut und gerne über 1.500 Dimensionen, die nicht auf das einzelne Wort gehen, sondern auf größere Textabschnitte deines Korpus. Klassische Schwärzungs- oder Schlagwortansätze laufen ins Leere, weil die Bedeutung weiterhin extrahierbar ist.

Was Datenschutz im KI-Zeitalter konkret bedeutet

Datenschutz heißt im LLM-Zeitalter Kontrolle – Kontrolle über die Infrastruktur und Kontrolle über den Zugang. Tino Bächtold gründete genau aus diesem Grund vor knapp drei Jahren On-Prem AI: Datensouveränität und KI für den Mittelstand zugänglich machen, ohne auf einen großen Hyperscaler angewiesen zu sein.

Moderne GPU-Grafikkarte mit Kühlkörper als Hardwarebasis für lokale Sprachmodelle

Was leisten lokale KI-Server heute praktisch?

On-Prem AI liefert schlüsselfertige KI-Server, die im besten Fall nach dem Prinzip „Plug-and-Play“ funktionieren. Tino Bächtold beschrieb das so: „Wir liefern sie aus, und je nach Bedarf betreiben wir die auch in einem Wartungsvertrag.“ Intern nennen sie das den Heroku-Moment: einen Knopf drücken, und die Infrastruktur fährt hoch.

Drei Serverklassen, eine Architektur

Im Webinar stellte Tino Bächtold drei Servergrößen vor – S, M und L. Viele Kunden beginnen mit dem S-Server (intern „Starter“ genannt) und skalieren später hoch. Alle laufen auf der NVIDIA Blackwell-Architektur. Die Demo im Webinar lief vollständig auf dem S-Server.

Konkrete Leistungswerte aus dem Webinar

  • Ca. 300 Tokens pro Sekunde für einen einzelnen User
  • Bis zu 2.500 Tokens pro Sekunde aggregiert auf 16 bis 20 User
  • Updates alle zwei bis drei Wochen – auch komplett air-gapped per USB-Stick möglich
  • Mehrere hundert Sensoren auf einer Grafikkarte werden geloggt und sind im Grafana-Dashboard sichtbar

Oliver Schulze ergänzte den Vergleich: Cloud-Anbieter wie OpenAI, GPT oder Claude liefern bei einem Single-User etwa 30 Tokens pro Sekunde, wenn es gut läuft. Lokale KI auf der gezeigten Hardware ist damit das Zehnfache schneller – und es ist genau das, was Tino Bächtold im Webinar betonte: „Wir versuchen, am Puls der Zeit zu bleiben, diese Optimierung reinzubringen und im Update abzuspielen.“

Interaktives Balkendiagramm mit monatlichen Rechnungssummen auf einem Bildschirm im Büro

Wie sieht der Einsatz lokaler KI mit agorum core in der Praxis aus?

Oliver Schulze führte die Live-Demo direkt in agorum core mit dem integrierten ALBERT | AI Chat vor. Alles, was er zeigte, lief zu 100 % lokal auf der On-Prem-AI-Hardware – kein einziger externer Cloud-Dienstanbieter war beteiligt.

Beispiel 1: Rechnungen automatisch auswerten

Oliver Schulze stellte folgenden Prompt: „Suche Rechnungen von 2022 bis 2023 von der agorum Software GmbH und zeige sie mir monatlich gruppiert in einem Chart an.“

Die lokale KI entschied selbständig, ein Tool innerhalb von agorum core aufzurufen, führte die Suche aus, lud die Beträge und generierte einen interaktiven Chart – Rechnungen blau dargestellt, Gutschriften rot. Anschließend erweiterte er die Auswertung auf 2022 bis 2025 und ließ die Jahre überlagern. Die Diagramme entstanden in Sekunden – deutlich schneller, als Oliver Schulze es von Cloud-Diensten gewohnt war.

Beispiel 2: Whisper-Transkription

Eine zweite Modellklasse auf der On-Prem-AI-Hardware ist Whisper. Oliver Schulze übergab eine Audiodatei und ließ sie transkribieren – sehr präzise, wie er betonte. Praktischer Anwendungsfall bei agorum® selbst: Anrufe, die niemand entgegennehmen kann, werden als Audioaufnahme gespeichert und automatisch in Text gewandelt.

Beispiel 3: PaddleOCR auf Handschrift und gescannten Rechnungen

Ein drittes Modell: PaddleOCR für die Texterkennung. Oliver Schulze zeigte zwei beeindruckende Fälle:

  • Ein handgeschriebenes Kuchenrezept wurde vollständig erkannt – inklusive Zutatenliste und Grammangaben.
  • Eine gescannte Rechnung ohne Textebene – teilweise klein gedruckt, nicht in bester Qualität – wurde sauber ausgelesen, inklusive Positionszahlen und Layout-Informationen.

Beides eignet sich laut Oliver Schulze hervorragend, um anschließend eine vollautomatische Metadatenextraktion zu starten.

Gestapelte Papierdokumente und Rechnungen neben einem Scanner und Laptop im Büro

Wie sortiert lokale KI Dokumente vollautomatisch ein?

Den vermutlich beeindruckendsten Teil der Demo lieferte Oliver Schulze mit der automatisierten Dokumentensortierung. Verschiedene Dokumente – Angebot, Rechnung, Bestellung von unterschiedlichen Firmen – wurden in einen Eingangsordner kopiert.

Was im Hintergrund passiert

Im Hintergrund läuft ein Job los, der jedes einzelne Dokument durch das lokale LLM steuert. Die KI erkennt:

  • Welche Firma hat das Dokument ausgestellt?
  • Welcher Dokumenttyp liegt vor – Angebot, Rechnung, Lieferschein, Bestellung?
  • Von welchem Datum ist das Dokument?
  • Welche Nummer trägt es?

Anhand dieser Daten wird die Ordnerstruktur automatisch generiert, die Datei wird umbenannt nach Typ, Nummer, Firma und Datum, und in den passenden Unterordner einsortiert. Im Webinar landeten innerhalb weniger Sekunden alle Dokumente in einer sauber gegliederten Struktur – sortiert nach Firma, dann nach Typ, dann nach Jahr.

Wie die Dokumente in den Eingangsordner kommen

Oliver Schulze erklärte, dass die Dokumente nicht nur per Kopieren in den Eingangsordner gelangen müssen. Sie können:

  • direkt vom Scanner über das Netzlaufwerk hineingeschrieben werden
  • per E-Mail als Anhang automatisiert dort landen

Im Chat mit den sortierten Daten arbeiten

Sobald die Dokumente einsortiert sind, lässt sich ALBERT | AI direkt im Kontext dieses Ordners öffnen. Oliver Schulze demonstrierte: „Gib mir einen Überblick über alle Dokumente aus 2024, mache eine schöne Auflistung als Chat-Widget“ – per Spracheingabe ins Mikrofon, mit dem Schlüsselwort „Albert“ am Satzende. Die Whisper-Spracherkennung lief ebenfalls lokal auf der On-Prem-AI-Hardware und war laut Oliver Schulze „extrem präzise“.

Welches lokale Modell sollte ich wählen – und wie schnell veralten Modelle?

Tino Bächtold sprach im Webinar nicht so gern über die neuesten Modelle, sondern eher über das Problem, das die Modelle lösen sollen. Eine Aussage zog sich aber als Trend durch den Vortrag: „Die Modelle werden kleiner und die Qualität besser.“

Aktueller Sweet Spot laut Webinar

  • Gemma: Oliver Schulzes aktuelle Empfehlung – sehr gut im agentischen Einsatz, schnell, verhältnismäßig intelligent für ein kleines Modell und gleichzeitig fähig, Bilder zu erkennen. In der Webinar-Demo lief dieses Modell.
  • GPT-OSS 120B: Oliver Schulzes vorherige Empfehlung – stark, aber ohne native Bilderkennung.
  • Qwen: Tino Bächtold erwähnte Qwen explizit als spannendes Modell mit großer Community-Aktivität.

Multimodalität entscheidet

Was im Webinar zusätzlich klar wurde: Es kommt darauf an, was du machen möchtest. Ein Modell ist gut beim Texte schreiben, ein anderes beim agentischen Handeln, ein drittes bei der Bilderkennung. Eine Plattform wie ALBERT | AI, die Multi-LLM-fähig ist und verschiedene Modelle parallel nutzen kann, lässt sich genau danach steuern.

Lifecycle: Hardware bleibt, Modelle wechseln

Modelle erscheinen aktuell beinahe monatlich. Sie laufen alle de facto auf der gleichen Hardware, die einen wesentlich größeren Lifecycle hat – fünf bis sechs Jahre. Tino Bächtold betonte: Die Investition in den KI-Server amortisiert sich auch deshalb, weil die Hardware bei ihm einen sehr guten Werterhalt hat. Updates werden alle zwei bis drei Wochen geliefert. Wer den Server vollständig air-gapped betreibt, bekommt das Update per USB-Stick.

Rechnet sich lokale Business-KI im Mittelstand?

Tino Bächtold beantwortete die wohl häufigste Frage im Webinar direkt: „Kostet es nicht unglaublich viel, ein Large Language Model bei sich lokal zu betreiben?“ – Gleichzeitig kommen aber genauso viele Anfragen von Kunden, denen die Cloud-Kosten gerade explodieren.

Was bei der Cloud-Rechnung oft fehlt

Cloud-Modelle berechnen in der Regel nur die Tokens. Wenn du die GPU einkalkulierst, die du in einem lokalen Betrieb selbst betreibst, ist die Rechnung schon im ersten Monat anders. Tino Bächtold spricht von „Budgetsicherheit“ – On-Premises ist eine Flatrate. Du musst nicht fürchten, dass die Kosten plötzlich explodieren.

Datensicherheit ist nicht quantifizierbar

Ein Satz, der im Webinar besonders einprägsam war: „Datensicherheit ist nicht quantifizierbar. Entweder du hast Datenschutz oder eben nicht.“

Server-Preise: Direkt nachfragen

Tino Bächtold sprach im Webinar von einer Preisspanne im Bereich des M-Servers, die durch die aktuelle Volatilität rund 120.000 Schweizer Franken betragen könne. Der im Webinar gezeigte S-Server ist deutlich günstiger. Für eine belastbare Aussage empfiehlt er, sich direkt zu melden und eine Offerte einzuholen, weil sich Preise im Markt rasch verändern.

Wann lohnt sich On-Premises konkret?

Oliver Schulze brachte es im Q&A auf den Punkt: „Wenn KI wirklich so eingesetzt wird, dass es dem Unternehmen auch was bringt, dann hat man auch einen hohen Tokenverbrauch.“ Und genau dann rechnet sich lokale Hardware schnell. Reine Gelegenheits-Chats lohnen sich preislich seltener – aber dann nutzt das Unternehmen KI ohnehin nicht gewinnbringend.

Wie greifen ALBERT | AI und On-Prem AI in der Architektur ineinander?

Oliver Schulze zeigte im Webinar, wie sich On-Prem AI in agorum core mit wenigen Klicks anbinden lässt: Server-Adresse, API-Key, Modell wählen – fertig. Selbiges gilt für Whisper und PaddleOCR.

Berechtigungen bleiben erhalten

Ein zentrales Argument, das Oliver Schulze klar herausstellte: „Die KI kann das nur tun mit den Berechtigungen, die der Benutzer hat, der mit diesem Chat gerade chattet.“ Niemand sieht durch die KI mehr Dokumente als ohne sie. Es gibt keine KI-Hintertür auf vertrauliche Personaldokumente oder andere geschützte Inhalte.

Das ist laut Oliver Schulze ein großer Unterschied zu Cloud-Lösungen, bei denen Dokumente in einen Vektorindex geworfen werden und die Berechtigung anschließend über das Prompting eingeschränkt wird – was er als „Vogelpackung“ bezeichnete.

Keine Vektor-Datenbank – sondern Suchmaschine plus Hierarchie

Auf die Frage, ob bei aktivem ALBERT | AI eine zusätzliche Vektor-Datenbank aufgebaut wird, antwortete Oliver Schulze klar mit Nein. ALBERT | AI nutzt die in agorum core vorhandene Suchmaschine, die Verzeichnisbäume und die Objekt-Metadaten direkt über Tools. Es findet keine doppelte Datenhaltung statt. Für das ALBERT | AI Wissen kommt eine hierarchische Dokumentenstruktur mit Übersichten zum Einsatz, die laut Oliver Schulze in der Praxis präziser arbeitet als klassische vektorbasierte RAG-Systeme.

Hunderte Tools, multi-modal, Mixed Cloud möglich

ALBERT | AI bringt mehrere hundert Tools mit. Suche, Verzeichnisbaum lesen, Text aus Objekten holen, E-Mail-Anhänge, Metadaten, aktuelles Datum, Chat-Widgets, Show-Job-Widgets. Wenn ein Cloud-Anbieter einen MCP-Server bereitstellt, lässt er sich direkt anbinden. Wenn nicht, gibt es die ALBERT | AI Sandbox – eine geschützte Cloud-Compute-Umgebung, in der die KI einen Browser bedienen kann. Auf einer übergeordneten Ebene lässt sich lokale KI als Orchestrator nutzen, der Sub-Agenten mit anderen Modellen aufruft – auch externen.

Webinar-Aufzeichnung

Webinar: Lokale KI im Unternehmen - datenschutzkonform

FAQ Häufig gestellte Fragen zu lokaler Business-KI

Zwei Geschäftsleute sitzen auf Sitzwürfeln in einem modernen Büro und besprechen sich, während eine dritte Person im Vordergrund zuhört.

Fazit: Dein nächster Schritt: Lokale Business-KI ohne Umwege ausprobieren

Das Webinar vom 19. Mai 2026 hat gezeigt: Lokale Sprachmodelle sind heute praxistauglich. Sie transkribieren Audiodateien, erkennen handschriftliche Notizen und gescannte Rechnungen, sortieren eingehende Dokumente vollautomatisch und werten Geschäftszahlen interaktiv aus – alles unter deiner Kontrolle, in deiner Infrastruktur, mit dem Modell deiner Wahl.

Tino Bächtold schloss seinen Vortrag mit dem Satz: „Unser Ziel ist ein bisschen, dass die Zukunft datensouverän ist.“ Wer das Fundament jetzt baut, muss es nicht zweimal bauen.

Drei konkrete nächste Schritte

  1. Webinar-Aufzeichnung ansehen: Alle Demos noch einmal im Detail. Die Aufzeichnung erhältst du im Nachgang per E-Mail.
  2. Hardware-Optionen klären: Tino Bächtold erreichst du direkt über onprem.ai – für eine konkrete Offerte zu S-, M- oder L-Server.
  3. Lokales LLM mit agorum core kombinieren: Im Erfahrungsbericht zum Gemma-Modell zeigt Oliver Schulze, was lokal funktioniert und was nicht.

Die nächsten Teile der Serie vertiefen das Thema: Teil 2 am 23. Juni 2026 (Potenziale identifizieren) und Teil 3 am 21. Juli 2026 (Praxis und Prompting). Oder vereinbare jetzt ein individuelles Gespräch mit unseren Experten.

Bitmi