Seit über einem Jahr betreiben wir bei BLICKPULS eigene KI-Infrastruktur. Keine Cloud-Abos, keine API-Calls an Server in den USA, keine Abhängigkeit von OpenAI oder Google. Stattdessen: eigene Hardware, eigene Modelle, volle Kontrolle. Was als Experiment begann, ist heute fester Bestandteil unserer Arbeit — und ein echtes Differenzierungsmerkmal gegenüber anderen Agenturen.

In diesem Artikel zeigen wir transparent, was lokale KI bedeutet, was unser Setup ist, was es kostet und für wen sich der Aufwand lohnt.

Was "lokale KI" bedeutet

Lokale KI heißt: ein Large Language Model (LLM) läuft auf eigener Hardware. Nicht auf einem Server von OpenAI in San Francisco. Nicht auf Googles Cloud-Infrastruktur in Virginia. Sondern auf einem Rechner, der in deinem Büro steht, unter deiner Kontrolle, in deinem Netzwerk.

Die technische Grundlage dafür existiert seit etwa zwei Jahren in brauchbarer Form. Open-Source-Modelle wie Llama 3.1, Mixtral, Mistral, Phi und Qwen haben eine Qualität erreicht, die für die allermeisten Geschäftsanwendungen ausreicht. Tools wie Ollama, LM Studio und llama.cpp machen die Installation und den Betrieb dieser Modelle auf normaler Hardware möglich — ohne Data-Science-Abschluss, ohne Kubernetes-Cluster.

Das Prinzip ist einfach: Modell herunterladen, Runtime starten, Anfragen lokal verarbeiten. Keine Daten verlassen das Gerät. Keine Internetverbindung nötig. Keine monatlichen Kosten pro Token.

Unser Setup — ehrlich und transparent

Unsere Haupt-Inferenz-Maschine ist ein Mac Studio mit M3 Ultra und 96 GB Unified Memory. Unified Memory bedeutet: CPU und GPU teilen sich den gesamten Arbeitsspeicher. Das ist für LLMs ein enormer Vorteil, weil die Modellgewichte nicht zwischen verschiedenen Speicherbereichen kopiert werden müssen. Ergebnis: Llama 3.1 70B läuft flüssig, mit akzeptabler Inferenzgeschwindigkeit, ohne Lüftergeräusch, bei unter 100 Watt Stromverbrauch.

Dazu betreiben wir einen Linux-Server mit NVIDIA-GPUs für schwerere Workloads — Batch-Verarbeitung, größere Modelle, parallele Anfragen. Für den täglichen Betrieb reicht der Mac Studio. Der Linux-Server kommt zum Einsatz, wenn es rechenintensiv wird.

Als Runtime nutzen wir Ollama — eine schlanke, CLI-basierte Lösung, die Modelle verwaltet und über eine lokale API bereitstellt. Darüber haben wir eigene Prompts, Workflows und Automatisierungen gebaut, die in unsere tägliche Arbeit integriert sind. Von Texterstellung über Zusammenfassungen bis hin zur Code-Unterstützung.

Die Kosten? Einmalig 8.000 bis 15.000 Euro für die Hardware — je nach Konfiguration. Danach: nur Strom. Kein monatliches Abo, keine Token-Kosten, keine überraschenden Rechnungen am Monatsende. Der Mac Studio verbraucht im Dauerbetrieb weniger Strom als ein Wasserkocher.

Was lokale KI kann — und was (noch) nicht

Lokale KI ist kein Spielzeug. Die 70B-Parameter-Modelle der aktuellen Generation liefern Ergebnisse, die erstaunlich nah an GPT-4 und Claude heranreichen. Für viele Aufgaben sind sie gleichwertig.

Was hervorragend funktioniert: Texterstellung und -überarbeitung. Zusammenfassungen langer Dokumente. Übersetzungen. Code-Unterstützung und Code-Reviews. Datenanalyse und -strukturierung. Brainstorming und Ideenentwicklung. Alles, was mit Text arbeitet, läuft lokal auf einem hohen Niveau.

Was noch nicht (oder nicht gut genug) funktioniert: Bildgenerierung auf Midjourney-Niveau ist lokal noch nicht praktikabel — die Modelle existieren, aber die Inferenzzeit auf Consumer-Hardware ist zu hoch. Echtzeit-Websuche ist naturgemäß nicht möglich ohne Internetverbindung. Und sehr große Kontextfenster, wie sie Claude mit 200.000 Tokens bietet, sind lokal speichertechnisch eine Herausforderung.

Unsere Erfahrung: für 80 Prozent der täglichen KI-Aufgaben reicht lokale Inferenz. Für die restlichen 20 Prozent nutzen wir Cloud-Tools wie Claude oder ChatGPT — aber bewusst, gezielt, und nur mit nicht-sensiblen Daten.

Warum sich der Aufwand lohnt

Fünf Gründe, warum wir diesen Weg gewählt haben — und ihn jedem Unternehmen mit sensiblen Daten empfehlen:

1. DSGVO-Konformität. Keine Daten verlassen Deutschland. Keine Auftragsverarbeitung mit US-Unternehmen nötig. Kein Restrisiko bei transatlantischem Datentransfer. Für Agenturen, die mit Kundendaten arbeiten, ist das kein Nice-to-have — es ist eine Pflicht.

2. Kosten. Ein ChatGPT-Team-Abo kostet 25 Dollar pro Nutzer pro Monat. Claude Pro 20 Dollar. Für ein Team von 5 Personen sind das 100 bis 125 Dollar monatlich — plus API-Kosten für Automatisierungen. Nach 6 bis 8 Monaten hat sich die Hardware amortisiert. Danach spart man jeden Monat.

3. Unabhängigkeit. Kein Vendor Lock-in. Kein API-Ausfall, der die Arbeit stoppt. Kein Preisanstieg, den man hinnehmen muss. Kein Anbieter, der plötzlich seine Nutzungsbedingungen ändert. Wir kontrollieren die Infrastruktur.

4. Geschwindigkeit. Keine Netzwerk-Latenz. Keine Rate Limits. Keine Warteschlangen. Die Antwort kommt, sobald das Modell sie generiert hat — und das ist auf einem Mac Studio mit M3 Ultra schnell genug für interaktives Arbeiten.

5. Anpassbarkeit. Eigene System-Prompts, eigene Workflows, eigene Fine-Tunes wenn nötig. Volle Kontrolle über das Modell, die Parameter, die Konfiguration. Kein schwarzer Kasten, sondern ein Werkzeug, das wir genau auf unsere Bedürfnisse abstimmen.

Lokale KI ist kein Hobby-Projekt. Es ist eine strategische Infrastruktur-Entscheidung — wie eigene Server vor 20 Jahren.

Für wen sich lokale KI lohnt — und für wen nicht

Lohnt sich für: Agenturen, die mit Kundendaten arbeiten. Kanzleien und Steuerberater, die Vertraulichkeit garantieren müssen. Arztpraxen mit Patientendaten. Unternehmen mit sensiblen Geschäftsinformationen. Teams ab 3 bis 5 Personen, bei denen sich die Hardware-Investition rechnet.

Lohnt sich (noch) nicht für: Einzelpersonen — ein ChatGPT- oder Claude-Abo ist da günstiger und praktischer. Unternehmen ohne IT-Kompetenz, die niemanden haben, der die Systeme betreut. Use Cases, die primär Bildgenerierung erfordern — da ist die Cloud noch überlegen.

Die Grenze verschiebt sich allerdings schnell. Was vor einem Jahr noch undenkbar war — ein 70B-Modell auf einem Desktop-Rechner flüssig ausführen — ist heute Alltag. In einem Jahr wird die Einstiegshürde noch niedriger sein.

Wie wir unseren Kunden dabei helfen

BLICKPULS ist keine IT-Firma. Wir sind eine Kreativagentur. Aber eine, die ihre eigene KI-Infrastruktur betreibt — jeden Tag, in der Produktion, mit echten Ergebnissen. Das unterscheidet uns von Beratern, die KI nur aus Präsentationen kennen.

Wir beraten bei der Auswahl der richtigen Hardware — Mac Studio, Linux-Server oder beides. Wir helfen beim Setup — Ollama, LM Studio, die passenden Modelle für den jeweiligen Use Case. Wir schulen Teams, damit die KI nicht nur steht, sondern auch genutzt wird. Und wir bleiben dran, weil sich die Technologie schnell weiterentwickelt.

Nicht als externer Dienstleister, der einrichtet und verschwindet. Sondern als Agentur, die das Ganze selbst täglich nutzt und weiß, wo die Stolpersteine liegen. Das ist ein Unterschied, den man merkt.

Wenn Sie darüber nachdenken, KI lokal zu betreiben — oder einfach wissen wollen, ob es sich für Ihr Unternehmen lohnt — sprechen Sie mit uns. Wir zeigen Ihnen gern unser Setup. Ganz unverbindlich.