Gemma 4: Googles Open-Source-KI läuft jetzt auf deinem Smartphone – offline, multimodal, Apache 2.0
Google DeepMind veröffentlicht Gemma 4 mit Edge-Modellen, die komplett offline auf Android-Smartphones laufen. Mit Audio-Input, Agentic Tool Use und Apache-2.0-Lizenz definiert es On-Device KI neu.

Inhaltsverzeichnis
KI direkt auf dem Handy: Warum Gemma 4 alles verändert
Am 2. April 2026 hat Google DeepMind mit Gemma 4 die bisher ambitionierteste Open-Source-Modellfamilie veröffentlicht – und zum ersten Mal fühlt sich KI auf dem Smartphone nicht wie ein Kompromiss an. Die Edge-Modelle E2B und E4B laufen komplett offline auf Android-Telefonen, Raspberry Pi und sogar NVIDIA Jetson Nano – mit nahezu null Latenz.
Aber Gemma 4 ist mehr als nur ein kleines Modell für unterwegs. Mit der Apache-2.0-Lizenz, einer innovativen Architektur und Benchmark-Ergebnissen, die Modelle mit 20× mehr Parametern übertreffen, definiert Gemma 4 neu, was „Open Source KI" bedeutet.
Die Gemma-4-Familie im Überblick
Google veröffentlicht vier Modellgrößen, die jeweils auf unterschiedliche Hardware optimiert sind:
| Modell | Parameter | Kontext | Ziel-Hardware |
|---|---|---|---|
| Gemma 4 E2B | 2,3B effektiv (5,1B mit Embeddings) | 128K | Smartphones, IoT |
| Gemma 4 E4B | 4,5B effektiv (8B mit Embeddings) | 128K | Smartphones, Tablets |
| Gemma 4 26B MoE | 4B aktiv / 26B gesamt | 256K | Workstations, GPUs |
| Gemma 4 31B Dense | 31B | 256K | Server, H100 GPUs |
Die Besonderheit: Alle Modelle sind multimodal – sie verarbeiten Text, Bilder und Video. Die Edge-Varianten E2B und E4B verstehen zusätzlich Audio, was Spracherkennung und Audio-Analyse direkt auf dem Gerät ermöglicht.
Was Gemma 4 auf dem Smartphone so besonders macht
1. Komplett offline – keine Cloud nötig
Die Edge-Modelle laufen vollständig lokal auf dem Gerät. Kein API-Call, keine Internetverbindung, keine Cloud-Kosten. Für Unternehmen mit strengen Datenschutzanforderungen (DSGVO, HIPAA) ist das ein Gamechanger: Sensible Daten verlassen nie das Gerät.
2. Near-Zero Latency
Durch die optimierte Architektur mit Per-Layer Embeddings (PLE) und Shared KV Cache reagieren die Modelle nahezu sofort. Auf einem aktuellen Android-Smartphone mit 8 GB RAM liefert das E2B-Modell Antworten in Echtzeit – ohne die typischen API-Latenzen von 1-3 Sekunden.
3. Multimodal auf dem Telefon
Gemma 4 E4B kann direkt auf dem Smartphone:
- Bilder analysieren: Produktfotos erkennen, Texte per OCR lesen, UI-Elemente identifizieren
- Audio verstehen: Spracherkennung, Meetingzusammenfassungen, Audio-Analyse
- Videos verarbeiten: Szenen beschreiben, Inhalte zusammenfassen
- Code generieren: Aus einem Screenshot einer Website den HTML-Code rekonstruieren
4. Agentic Workflows auf dem Gerät
Neu in Gemma 4: Native Function Calling und strukturierter JSON-Output. Das bedeutet, die Edge-Modelle können eigenständig Tools aufrufen, APIs ansprechen und mehrstufige Aufgaben ausführen – direkt auf dem Telefon.
Google hat dafür eigens die AICore Developer Preview in Android integriert, die Entwicklern erlaubt, Gemma 4 als Agentic Engine in ihren Apps einzusetzen.
Die technischen Innovationen im Detail
Per-Layer Embeddings (PLE)
In klassischen Transformern bekommt jedes Token genau einen Embedding-Vektor, der alle Informationen für alle Schichten tragen muss. PLE ändert das fundamental: Jede Dekodierschicht erhält ihren eigenen, kleineren Konditionierungsvektor.
Der Effekt:
- Jede Schicht kann sich auf unterschiedliche Aspekte eines Tokens spezialisieren
- Die Gesamtqualität steigt bei minimalem Parameteraufwand
- Besonders wirksam bei kleinen Modellen, wo jeder Parameter zählt
Shared KV Cache
Die letzten Schichten des Modells berechnen keine eigenen Key-Value-Projektionen mehr, sondern nutzen die KV-Tensoren der letzten nicht-geteilten Schicht wieder. Das reduziert sowohl Speicherverbrauch als auch Rechenaufwand – entscheidend für Geräte mit begrenztem RAM.
Variable Bildauflösungen
Der Vision-Encoder unterstützt konfigurierbare Token-Budgets (70, 140, 280, 560, 1.120 Tokens pro Bild). Entwickler können den Sweet Spot zwischen Geschwindigkeit, Speicher und Qualität selbst wählen – ideal für mobile Apps, wo jedes Megabyte zählt.
Benchmarks: David gegen Goliath
Die Zahlen sind beeindruckend. Gemma 4 31B erreicht auf der Arena AI Text-Leaderboard Platz 3 unter allen Open-Source-Modellen – und schlägt dabei Modelle mit 20× mehr Parametern:
| Benchmark | Gemma 4 31B | Gemma 4 26B MoE | Gemma 4 E4B | Gemma 4 E2B | Gemma 3 27B |
|---|---|---|---|---|---|
| Arena AI (Text) | 1.452 | 1.441 | — | — | 1.365 |
| MMMLU (Multilingual) | 85,2% | 82,6% | 69,4% | 60,0% | 67,6% |
| MMMU Pro (Multimodal) | 76,9% | 73,8% | 52,6% | 44,2% | 49,7% |
| AIME 2026 (Mathematik) | 89,2% | 88,3% | 42,5% | 37,5% | 20,8% |
| LiveCodeBench v6 (Coding) | 80,0% | 77,1% | 52,0% | 44,0% | 29,1% |
| GPQA Diamond (Wissenschaft) | 84,3% | 82,3% | 58,6% | 43,4% | 42,4% |
| τ2-bench (Agentic Tool Use) | 86,4% | 85,5% | 57,5% | 29,4% | 6,6% |
Besonders bemerkenswert: Das 26B MoE-Modell aktiviert nur 4 Milliarden Parameter während der Inferenz – und erreicht trotzdem fast die Qualität des dichten 31B-Modells. Das macht es extrem effizient für lokale Setups.
Apache 2.0: Wirklich offen, wirklich frei
Ein Meilenstein, der oft übersehen wird: Gemma 4 steht unter der Apache 2.0 Lizenz. Das bedeutet:
- Kommerziell nutzbar ohne Einschränkungen
- Keine Nutzungsbeschränkungen (anders als z.B. Llamas Community-Lizenz)
- Vollständig anpassbar: Fine-Tuning, Distillation, Merging – alles erlaubt
- Digitale Souveränität: Volle Kontrolle über Daten, Infrastruktur und Modell
Für europäische Unternehmen, die unter den Anforderungen des EU AI Acts arbeiten, ist das ein enormer Vorteil: Die Modelle können selbst gehostet, geprüft und dokumentiert werden.
Praxisbeispiele: Gemma 4 im Marketing-Einsatz
On-Device Content-Analyse
Ein Social-Media-Manager fotografiert ein Konkurrenzprodukt im Supermarkt. Gemma 4 E4B analysiert das Bild direkt auf dem Smartphone:
- Erkennt das Produkt und die Marke
- Liest den Preis per OCR
- Generiert einen kurzen Wettbewerbsreport
- Alles offline, ohne dass das Bild die Cloud berührt
Offline-Chatbot für Messen und Events
Ein Unternehmen setzt Gemma 4 E4B auf Tablets ein, die als Produktberater an Messeständen fungieren. Die Vorteile:
- Funktioniert auch bei schlechtem WLAN
- Keine API-Kosten bei hunderten gleichzeitigen Nutzern
- Sensible Produktinformationen bleiben lokal
Sprachanalyse im Kundendienst
Gemma 4 E2B analysiert Kundenanrufe in Echtzeit direkt auf dem Diensttelefon:
- Stimmungserkennung (Sentiment Analysis)
- Automatische Zusammenfassung
- Keyword-Extraktion für CRM-Integration
- DSGVO-konform, da keine Audiodaten übertragen werden
Das Ökosystem: Überall lauffähig
Gemma 4 hat ab Tag eins Unterstützung in den wichtigsten Frameworks:
| Plattform | Unterstützung |
|---|---|
| Hugging Face Transformers | Vollständig, inkl. Agents |
| Ollama | Sofort verfügbar |
| LM Studio | Desktop-Integration |
| llama.cpp | C/C++ Inferenz |
| MLX | Apple Silicon optimiert |
| vLLM | High-throughput Serving |
| Google AI Edge | Android-native |
| NVIDIA NIM | Enterprise Deployment |
| Transformers.js | Browser-Inferenz |
Besonders spannend: Über Transformers.js können die E2B-Modelle sogar direkt im Browser laufen – ohne Backend, ohne Server. Ideal für Privacy-first Webanwendungen.
Gemma 4 vs. Wettbewerb: Der Vergleich
| Kriterium | Gemma 4 E4B | Llama 4 Scout | Phi-4 Mini | Qwen 3 |
|---|---|---|---|---|
| On-Device optimiert | ✅ Native | ❌ Zu groß | ⚠️ Teilweise | ⚠️ Teilweise |
| Audio-Input | ✅ | ❌ | ❌ | ❌ |
| Lizenz | Apache 2.0 | Community | MIT | Apache 2.0 |
| Agentic Tool Use | ✅ Native | ⚠️ Begrenzt | ❌ | ⚠️ Begrenzt |
| Android-Integration | ✅ AICore | ❌ | ❌ | ❌ |
| Kontextfenster | 128K | 10M | 128K | 128K |
Gemma 4 ist das einzige Modell, das native Android-Integration, Audio-Verständnis und Apache-2.0-Lizenz in einem Paket vereint.
Was bedeutet das für Unternehmen?
Der Shift zu Edge AI
Gemma 4 markiert einen Wendepunkt: Zum ersten Mal ist ein Modell mit echtem Reasoning, multimodaler Fähigkeit und Agentic Tool Use auf einem Smartphone lauffähig – und das unter einer kommerziell freien Lizenz.
Für Marketing-Teams bedeutet das:
- Content-Analyse wird mobil: Bildanalyse, OCR, Sentimentanalyse – alles direkt auf dem Firmenhandy
- Datenschutz by Design: Keine Cloud-Abhängigkeit für sensible Analysen
- Kostenreduktion: Kein API-Budget für Standard-Aufgaben mehr nötig
- Offline-Szenarien: Events, Reisen, Field-Sales – KI funktioniert auch ohne Internet
Die Demokratisierung der KI
Mit über 400 Millionen Downloads der Gemma-Familie und 100.000+ Community-Varianten (dem sogenannten „Gemmaverse") zeigt Google, dass Open Source nicht nur ein Marketing-Buzzword ist. Gemma 4 unter Apache 2.0 ist die konsequenteste Öffnung eines Frontier-nahen Modells, die wir bisher gesehen haben.
Fazit: Die KI-Revolution passt jetzt in die Hosentasche
Gemma 4 ist mehr als ein technologisches Upgrade – es ist ein Paradigmenwechsel. Wenn ein Modell mit 4 Milliarden effektiven Parametern auf einem Smartphone:
- Bilder und Audio multimodal versteht
- Agentic Workflows mit Tool Calling ausführt
- Texte in 140+ Sprachen generiert
- Und das alles offline und unter Apache 2.0
...dann stehen wir am Beginn einer neuen Ära der personalisierten, privatsphäre-schützenden KI.
Ihr nächster Schritt: Testen Sie Gemma 4 E4B in der Google AI Edge Gallery auf Ihrem Android-Gerät, oder nutzen Sie unseren AI Model Explorer, um Gemma 4 interaktiv mit anderen Modellen zu vergleichen. Für eine maßgeschneiderte Edge-AI-Strategie stehen wir Ihnen mit unserem AI Architecture Blueprint zur Seite.
Weitere Artikel
Diese Beiträge könnten Sie auch interessieren
Tools & TechnologieNVIDIA Nemotron 3 Nano Omni: Multimodal in einem Edge-Modell
Open-Weight-Alternative für On-Device-Deployment – was Marketing-Teams jetzt damit bauen können.
Tools & TechnologieMiroThinker H1: Verification-Centric Research Agents schlagen GPT-5.4
Wie ein Open-Source-Agent durch Verification-First-Architektur die Top-Modelle auf BrowseComp übertrifft.
Tools & TechnologiePayload CMS: Das Open-Source-CMS, das in Next.js lebt – und jetzt Figma gehört
Figma übernimmt Payload CMS – das TypeScript-native Headless CMS, das direkt in Next.js lebt. Was es besser macht als Contentful, Strapi und Sanity – und warum Marketing-Teams jetzt umdenken sollten.