Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Tools & Technologie

    Gemma 4: Googles Open-Source-KI läuft jetzt auf deinem Smartphone – offline, multimodal, Apache 2.0

    Google DeepMind veröffentlicht Gemma 4 mit Edge-Modellen, die komplett offline auf Android-Smartphones laufen. Mit Audio-Input, Agentic Tool Use und Apache-2.0-Lizenz definiert es On-Device KI neu.

    7. April 20268 min LesezeitNick Meyer
    Teilen:
    Gemma 4: Googles Open-Source-KI läuft jetzt auf deinem Smartphone – offline, multimodal, Apache 2.0

    Inhaltsverzeichnis

    KI direkt auf dem Handy: Warum Gemma 4 alles verändert

    Am 2. April 2026 hat Google DeepMind mit Gemma 4 die bisher ambitionierteste Open-Source-Modellfamilie veröffentlicht – und zum ersten Mal fühlt sich KI auf dem Smartphone nicht wie ein Kompromiss an. Die Edge-Modelle E2B und E4B laufen komplett offline auf Android-Telefonen, Raspberry Pi und sogar NVIDIA Jetson Nano – mit nahezu null Latenz.

    Aber Gemma 4 ist mehr als nur ein kleines Modell für unterwegs. Mit der Apache-2.0-Lizenz, einer innovativen Architektur und Benchmark-Ergebnissen, die Modelle mit 20× mehr Parametern übertreffen, definiert Gemma 4 neu, was „Open Source KI" bedeutet.


    Die Gemma-4-Familie im Überblick

    Google veröffentlicht vier Modellgrößen, die jeweils auf unterschiedliche Hardware optimiert sind:

    ModellParameterKontextZiel-Hardware
    Gemma 4 E2B2,3B effektiv (5,1B mit Embeddings)128KSmartphones, IoT
    Gemma 4 E4B4,5B effektiv (8B mit Embeddings)128KSmartphones, Tablets
    Gemma 4 26B MoE4B aktiv / 26B gesamt256KWorkstations, GPUs
    Gemma 4 31B Dense31B256KServer, H100 GPUs

    Die Besonderheit: Alle Modelle sind multimodal – sie verarbeiten Text, Bilder und Video. Die Edge-Varianten E2B und E4B verstehen zusätzlich Audio, was Spracherkennung und Audio-Analyse direkt auf dem Gerät ermöglicht.


    Was Gemma 4 auf dem Smartphone so besonders macht

    1. Komplett offline – keine Cloud nötig

    Die Edge-Modelle laufen vollständig lokal auf dem Gerät. Kein API-Call, keine Internetverbindung, keine Cloud-Kosten. Für Unternehmen mit strengen Datenschutzanforderungen (DSGVO, HIPAA) ist das ein Gamechanger: Sensible Daten verlassen nie das Gerät.

    2. Near-Zero Latency

    Durch die optimierte Architektur mit Per-Layer Embeddings (PLE) und Shared KV Cache reagieren die Modelle nahezu sofort. Auf einem aktuellen Android-Smartphone mit 8 GB RAM liefert das E2B-Modell Antworten in Echtzeit – ohne die typischen API-Latenzen von 1-3 Sekunden.

    3. Multimodal auf dem Telefon

    Gemma 4 E4B kann direkt auf dem Smartphone:

    • Bilder analysieren: Produktfotos erkennen, Texte per OCR lesen, UI-Elemente identifizieren
    • Audio verstehen: Spracherkennung, Meetingzusammenfassungen, Audio-Analyse
    • Videos verarbeiten: Szenen beschreiben, Inhalte zusammenfassen
    • Code generieren: Aus einem Screenshot einer Website den HTML-Code rekonstruieren

    4. Agentic Workflows auf dem Gerät

    Neu in Gemma 4: Native Function Calling und strukturierter JSON-Output. Das bedeutet, die Edge-Modelle können eigenständig Tools aufrufen, APIs ansprechen und mehrstufige Aufgaben ausführen – direkt auf dem Telefon.

    Google hat dafür eigens die AICore Developer Preview in Android integriert, die Entwicklern erlaubt, Gemma 4 als Agentic Engine in ihren Apps einzusetzen.


    Die technischen Innovationen im Detail

    Per-Layer Embeddings (PLE)

    In klassischen Transformern bekommt jedes Token genau einen Embedding-Vektor, der alle Informationen für alle Schichten tragen muss. PLE ändert das fundamental: Jede Dekodierschicht erhält ihren eigenen, kleineren Konditionierungsvektor.

    Der Effekt:

    • Jede Schicht kann sich auf unterschiedliche Aspekte eines Tokens spezialisieren
    • Die Gesamtqualität steigt bei minimalem Parameteraufwand
    • Besonders wirksam bei kleinen Modellen, wo jeder Parameter zählt

    Shared KV Cache

    Die letzten Schichten des Modells berechnen keine eigenen Key-Value-Projektionen mehr, sondern nutzen die KV-Tensoren der letzten nicht-geteilten Schicht wieder. Das reduziert sowohl Speicherverbrauch als auch Rechenaufwand – entscheidend für Geräte mit begrenztem RAM.

    Variable Bildauflösungen

    Der Vision-Encoder unterstützt konfigurierbare Token-Budgets (70, 140, 280, 560, 1.120 Tokens pro Bild). Entwickler können den Sweet Spot zwischen Geschwindigkeit, Speicher und Qualität selbst wählen – ideal für mobile Apps, wo jedes Megabyte zählt.


    Benchmarks: David gegen Goliath

    Die Zahlen sind beeindruckend. Gemma 4 31B erreicht auf der Arena AI Text-Leaderboard Platz 3 unter allen Open-Source-Modellen – und schlägt dabei Modelle mit 20× mehr Parametern:

    BenchmarkGemma 4 31BGemma 4 26B MoEGemma 4 E4BGemma 4 E2BGemma 3 27B
    Arena AI (Text)1.4521.4411.365
    MMMLU (Multilingual)85,2%82,6%69,4%60,0%67,6%
    MMMU Pro (Multimodal)76,9%73,8%52,6%44,2%49,7%
    AIME 2026 (Mathematik)89,2%88,3%42,5%37,5%20,8%
    LiveCodeBench v6 (Coding)80,0%77,1%52,0%44,0%29,1%
    GPQA Diamond (Wissenschaft)84,3%82,3%58,6%43,4%42,4%
    τ2-bench (Agentic Tool Use)86,4%85,5%57,5%29,4%6,6%

    Besonders bemerkenswert: Das 26B MoE-Modell aktiviert nur 4 Milliarden Parameter während der Inferenz – und erreicht trotzdem fast die Qualität des dichten 31B-Modells. Das macht es extrem effizient für lokale Setups.


    Apache 2.0: Wirklich offen, wirklich frei

    Ein Meilenstein, der oft übersehen wird: Gemma 4 steht unter der Apache 2.0 Lizenz. Das bedeutet:

    • Kommerziell nutzbar ohne Einschränkungen
    • Keine Nutzungsbeschränkungen (anders als z.B. Llamas Community-Lizenz)
    • Vollständig anpassbar: Fine-Tuning, Distillation, Merging – alles erlaubt
    • Digitale Souveränität: Volle Kontrolle über Daten, Infrastruktur und Modell

    Für europäische Unternehmen, die unter den Anforderungen des EU AI Acts arbeiten, ist das ein enormer Vorteil: Die Modelle können selbst gehostet, geprüft und dokumentiert werden.


    Praxisbeispiele: Gemma 4 im Marketing-Einsatz

    On-Device Content-Analyse

    Ein Social-Media-Manager fotografiert ein Konkurrenzprodukt im Supermarkt. Gemma 4 E4B analysiert das Bild direkt auf dem Smartphone:

    • Erkennt das Produkt und die Marke
    • Liest den Preis per OCR
    • Generiert einen kurzen Wettbewerbsreport
    • Alles offline, ohne dass das Bild die Cloud berührt

    Offline-Chatbot für Messen und Events

    Ein Unternehmen setzt Gemma 4 E4B auf Tablets ein, die als Produktberater an Messeständen fungieren. Die Vorteile:

    • Funktioniert auch bei schlechtem WLAN
    • Keine API-Kosten bei hunderten gleichzeitigen Nutzern
    • Sensible Produktinformationen bleiben lokal

    Sprachanalyse im Kundendienst

    Gemma 4 E2B analysiert Kundenanrufe in Echtzeit direkt auf dem Diensttelefon:

    • Stimmungserkennung (Sentiment Analysis)
    • Automatische Zusammenfassung
    • Keyword-Extraktion für CRM-Integration
    • DSGVO-konform, da keine Audiodaten übertragen werden

    Das Ökosystem: Überall lauffähig

    Gemma 4 hat ab Tag eins Unterstützung in den wichtigsten Frameworks:

    PlattformUnterstützung
    Hugging Face TransformersVollständig, inkl. Agents
    OllamaSofort verfügbar
    LM StudioDesktop-Integration
    llama.cppC/C++ Inferenz
    MLXApple Silicon optimiert
    vLLMHigh-throughput Serving
    Google AI EdgeAndroid-native
    NVIDIA NIMEnterprise Deployment
    Transformers.jsBrowser-Inferenz

    Besonders spannend: Über Transformers.js können die E2B-Modelle sogar direkt im Browser laufen – ohne Backend, ohne Server. Ideal für Privacy-first Webanwendungen.


    Gemma 4 vs. Wettbewerb: Der Vergleich

    KriteriumGemma 4 E4BLlama 4 ScoutPhi-4 MiniQwen 3
    On-Device optimiert✅ Native❌ Zu groß⚠️ Teilweise⚠️ Teilweise
    Audio-Input
    LizenzApache 2.0CommunityMITApache 2.0
    Agentic Tool Use✅ Native⚠️ Begrenzt⚠️ Begrenzt
    Android-Integration✅ AICore
    Kontextfenster128K10M128K128K

    Gemma 4 ist das einzige Modell, das native Android-Integration, Audio-Verständnis und Apache-2.0-Lizenz in einem Paket vereint.


    Was bedeutet das für Unternehmen?

    Der Shift zu Edge AI

    Gemma 4 markiert einen Wendepunkt: Zum ersten Mal ist ein Modell mit echtem Reasoning, multimodaler Fähigkeit und Agentic Tool Use auf einem Smartphone lauffähig – und das unter einer kommerziell freien Lizenz.

    Für Marketing-Teams bedeutet das:

    1. Content-Analyse wird mobil: Bildanalyse, OCR, Sentimentanalyse – alles direkt auf dem Firmenhandy
    2. Datenschutz by Design: Keine Cloud-Abhängigkeit für sensible Analysen
    3. Kostenreduktion: Kein API-Budget für Standard-Aufgaben mehr nötig
    4. Offline-Szenarien: Events, Reisen, Field-Sales – KI funktioniert auch ohne Internet

    Die Demokratisierung der KI

    Mit über 400 Millionen Downloads der Gemma-Familie und 100.000+ Community-Varianten (dem sogenannten „Gemmaverse") zeigt Google, dass Open Source nicht nur ein Marketing-Buzzword ist. Gemma 4 unter Apache 2.0 ist die konsequenteste Öffnung eines Frontier-nahen Modells, die wir bisher gesehen haben.


    Fazit: Die KI-Revolution passt jetzt in die Hosentasche

    Gemma 4 ist mehr als ein technologisches Upgrade – es ist ein Paradigmenwechsel. Wenn ein Modell mit 4 Milliarden effektiven Parametern auf einem Smartphone:

    • Bilder und Audio multimodal versteht
    • Agentic Workflows mit Tool Calling ausführt
    • Texte in 140+ Sprachen generiert
    • Und das alles offline und unter Apache 2.0

    ...dann stehen wir am Beginn einer neuen Ära der personalisierten, privatsphäre-schützenden KI.

    Ihr nächster Schritt: Testen Sie Gemma 4 E4B in der Google AI Edge Gallery auf Ihrem Android-Gerät, oder nutzen Sie unseren AI Model Explorer, um Gemma 4 interaktiv mit anderen Modellen zu vergleichen. Für eine maßgeschneiderte Edge-AI-Strategie stehen wir Ihnen mit unserem AI Architecture Blueprint zur Seite.

    👋Fragen? Chatte mit uns!