Warum ich diesen Vergleich gemacht habe
Autor: Tobias Müller — ispringen.dev
Ich habe in den letzten Wochen mehrere kleine Sprachmodelle unter 40 Milliarden Parametern auf meinem MacBook Pro M3 mit 64 GB RAM getestet. Mein Ziel war ein Modell zu finden, das lokal läuft, gut Deutsch spricht und zuverlässig logische Aufgaben löst. Die Ergebnisse waren überraschend und zeigen, wie weit die Technik in den letzten Monaten gekommen ist.
Hier sind die Fakten, die ich herausgefunden habe, und warum sie für Entwickler wie mich relevant sind.
Die Modelle im Vergleich: Architektur und Hardware-Anforderungen
Die Kandidaten
Ich habe mich auf Modelle konzentriert, die auf Consumer-Hardware laufen und explizit für Reasoning oder multilinguale Aufgaben optimiert sind.
| Modell | Aktive Parameter | Architektur | Kontextlänge | RAM-Bedarf (Q8) | Besonderheit |
|---|
| Llama 4 Scout | 17B (von 109B) | MoE, 16 Experten | 10M Tokens | ~115 GB | Unmöglich auf 64 GB |
| Ministral 3 Reasoning 14B | 14B | Dense | 256K Tokens | ~16 GB | Natives Reasoning |
| Qwen3:30b-a3b-thinking | ~3B (von 30B) | MoE (A3B) | 128K Tokens | ~32 GB | Multimodal, Thinking-Modus |
| Gemma 3 27B | 27B | Dense + Hybrid | 128K Tokens | ~30 GB | Sliding Window Attention |
| DeepSeek-R1-Distill-Qwen | 32B | Dense (Destillat) | 128K Tokens | ~34 GB | Reasoning-Destillation |
Warum Llama 4 Scout rausfällt
Llama 4 Scout klingt auf dem Papier vielversprechend: nur 17 Milliarden aktive Parameter dank MoE-Architektur. Doch der Schein trügt. Das Modell hat 109 Milliarden Gesamtparameter, die alle in den RAM geladen werden müssen. Selbst mit 4-Bit-Quantisierung (Q4) braucht es 60–65 GB RAM – und das bei halber Genauigkeit. Auf meinem 64-GB-MacBook wäre das ein Balanceakt mit unzuverlässigen Ergebnissen. Für lokale Entwicklung ist es keine Option.
Reasoning-Tests: Wer denkt wirklich nach?
Die Testaufgaben
Ich habe drei Aufgaben entwickelt, um logisches Denken, Mustererkennung und deutsche Sprachqualität zu prüfen:
- Regel-Bruch-Test (Mathematik mit künstlichen Regeln)
Eine einfache Rechenaufgabe mit absurden Regeln („Die Zahl 5 existiert nicht“). Korrekte Lösung: 6.
- Cipher-Test (Mustererkennung)
Ein selbst erfundenes Verschlüsselungssystem. Korrekte Lösung für „Katze“: K12026E.
- Deutsche Grammatik (Nuancen)
Erklärung des Unterschieds zwischen „das“ und „dass“ mit komplexen Beispielsätzen.
Die Ergebnisse
| Modell | Regel-Bruch | Cipher | Deutsche Grammatik | Reasoning sichtbar? |
|---|
| Magistral 24B | ❌ Loop | ❌ Loop | ❌ | Ja, aber endlos |
| Ministral 3 Reasoning 14B | ✅ | ❌ Loop | ✅ | Ja |
| Qwen3:30b-a3b-thinking | ✅ | ✅ | ✅ | Ja |
| Qwen3:32b Dense | ✅ | ✅ | ✅ | Ja |
| Gemma 3 27B | ✅ | ✅ | ✅ | Nein (implizit) |
| DeepSeek-R1-Distill-Qwen | ✅ | ✅ | ✅ | Ja |
Was die Tests zeigen
MoE-Modelle sind schnell, aber instabil. Für stabile Ergebnisse braucht es Dense-Modelle oder manuelle Limits.
-
MoE-Modelle sind schnell, aber instabil
Qwen3:30b-a3b-thinking löst beide Logik-Tests korrekt – aber beim Cipher-Test landete es im ersten Versuch in einer Endlosschleife. Der Grund: MoE-Router können bei ungewöhnlichen Mustern zirkuläre Aktivierungen erzeugen.
-
Gemma 3 denkt anders – und das ist ein Vorteil
Gemma 3 hat kein sichtbares Reasoning (keine <think>-Tags), aber alle Tests korrekt gelöst. Das Modell nutzt implizites Wissen statt expliziter Denkschritte. Für viele Aufgaben reicht das – und es ist deutlich schneller als Reasoning-Modelle.
-
Destillate sind gewissenhaft, aber langsam
DeepSeek-R1-Distill-Qwen brauchte für den Cipher-Test fast dreimal so lange wie Qwen3 Thinking. Der Grund: Destillate imitieren Denkprozesse, statt sie zu optimieren. Sie sind zuverlässig, aber nicht effizient.
Deutsche Sprache: Wer beherrscht die Nuancen?
Der Test
Ich habe die Modelle gebeten, den Unterschied zwischen „das“ und „dass“ zu erklären und drei komplexe Beispielsätze zu bilden. Die Bewertungskriterien:
- Grammatik: Keine Fehler in der Erklärung.
- Natürlichkeit: Klingt die Erklärung wie von einem Muttersprachler?
- Beispiele: Sind die Sätze idiomatisch korrekt?
Die Ergebnisse
| Modell | Grammatik | Natürlichkeit | Beispiele |
|---|
| Qwen3:30b-a3b-instruct | ❌ | ❌ | ❌ |
| Qwen3:30b-a3b-base | ✅ | ✅ | ✅ |
| Qwen3:32b Dense | ✅ | ✅ | ✅ |
| Gemma 3 27B | ✅ | ✅ | ✅ |
| DeepSeek-R1-Distill-Qwen | ✅ | ⚠️ (etwas steif) | ✅ |
Warum Reasoning die Sprache verbessert
Modelle mit aktiviertem Reasoning (Qwen Thinking, Ministral) lieferten bessere Erklärungen als Instruct-Varianten. Der Grund: Sie reflektieren die Regeln im Denkprozess, bevor sie antworten. Instruct-Modelle verlieren oft Nuancen, weil sie auf kurze, prägnante Antworten optimiert sind.
Gemma 3 überraschte hier positiv. Obwohl es kein Reasoning nutzt, waren die Erklärungen flüssig und korrekt. Das zeigt: Für Sprachaufgaben reicht oft implizites Wissen, wenn die Architektur stark genug ist.
Hardware-Effizienz: Wer läuft flüssig auf 64 GB?
Der Flaschenhals: KV-Cache und Kontextlänge
Die meisten Modelle leiden unter einem Problem: Je länger der Kontext, desto langsamer wird die Generierung. Der Grund ist der KV-Cache (Key-Value-Cache), der linear mit der Kontextlänge wächst. Bei 128.000 Tokens kann der Cache 15–25 GB RAM zusätzlich verbrauchen – und die Geschwindigkeit bricht von 50 auf 5 Token pro Sekunde ein.
Gemma 3: Der Game-Changer für lange Kontexte
Gemma 3 nutzt eine Hybrid-Attention-Architektur:
- 5 von 6 Schichten: Sliding Window (schaut nur auf die letzten ~1024 Tokens).
- 1 von 6 Schichten: Global Attention (schaut auf den gesamten Kontext).
Effekt:
- Der KV-Cache ist 80–90 % kleiner als bei Standardmodellen.
- Die Geschwindigkeit bleibt konstant, unabhängig von der Kontextlänge.
- Auf meinem MacBook Pro M3 läuft Gemma 3 mit 128K Kontext flüssig, während andere Modelle ab 50K Tokens zäh werden.
Praktische Empfehlung
| Modell | Kontextlänge | RAM-Verbrauch (Q8) | Geschwindigkeit | Use-Case |
|---|
| Qwen3:30b-a3b-thinking | 128K | ~32 GB | Schnell | Debugging, Logik-Rätsel |
| Gemma 3 27B | 128K | ~30 GB | Sehr schnell | Story-Writing, RAG, Dokumente |
| DeepSeek-R1-Distill-Qwen | 128K | ~34 GB | Langsam | Komplexe Code-Analysen |
Für die meisten Aufgaben ist Gemma 3 die beste Wahl. Es kombiniert Geschwindigkeit, lange Kontexte und deutsche Sprachqualität – ohne dass der RAM explodiert.
Multimodalität: Wer versteht Bilder?
Der Test
Ich habe die Modelle mit dem Raven’s Progressive Matrices-Test geprüft: eine 3x3-Matrix mit einem fehlenden Teil. Die Aufgabe: das richtige Muster aus sechs Optionen auswählen. Korrekte Lösung: Option 4.
Die Ergebnisse
| Modell | Ergebnis | Zeit | Multimodal? |
|---|
| Qwen3-vl:30b-a3b-thinking | ✅ 4 | Schnell | ✅ |
| Gemma 3 27B | ✅ 4 | Schnell | ✅ |
| Qwen3:32b Dense | ❌ | — | ❌ |
Warum Multimodalität wichtig ist
Für Entwickler gibt es viele Anwendungsfälle:
- UI-Debugging: „Warum sieht der Button auf diesem Screenshot falsch aus?“
- Dokumentation: „Erkläre dieses Diagramm aus der API-Dokumentation.“
- Kreative Arbeit: „Generiere eine Beschreibung für dieses Moodboard.“
Gemma 3 und Qwen3-vl sind die einzigen Modelle, die beides können: Text und Bilder. Qwen3-vl ist dabei etwas gründlicher (zeigt Denkprozess), aber Gemma 3 ist schneller.
Die Empfehlung: Zwei Modelle für maximale Effizienz
Nach den Tests habe ich mich für eine duale Strategie entschieden:
1. Gemma 3 27B (Q8_0) – Der Daily Driver
- Einsatz: 90 % der Aufgaben (Chatten, Coding, Story-Writing, Dokumenten-Analyse).
- Vorteile:
- Schnell und stabil (keine Endlos-Loops).
- Lange Kontexte (128K Tokens) ohne RAM-Probleme.
- Multimodal (Bilder + Text).
- Deutsche Sprache exzellent.
- Nachteile:
- Kein explizites Reasoning (für komplexe Logik-Rätsel manchmal zu oberflächlich).
- Ollama-Befehl:
ollama run gemma3:27b
2. Qwen3:30b-a3b-thinking (Q8_0) – Der Spezialist
Fazit: Was ich gelernt habe
Nicht das größte Modell ist das beste – sondern das, das auf deiner Hardware läuft.
-
MoE ist nicht immer die beste Wahl
Modelle wie Qwen3:30b-a3b sind schnell, aber instabil. Für lokale Entwicklung sind Dense-Modelle oft zuverlässiger.
-
Reasoning ist kein Allheilmittel
Gemma 3 zeigt: Für viele Aufgaben reicht implizites Wissen. Reasoning lohnt sich nur bei komplexen Problemen.
-
Kontext-Effizienz ist entscheidend
Gemma 3’s Hybrid Attention ist ein Game-Changer. Es ermöglicht lange Kontexte auf Consumer-Hardware – ohne dass das System langsamer wird.
-
Multimodalität wird unterschätzt
Die Fähigkeit, Bilder zu verstehen, ist für Entwickler extrem nützlich. Qwen3-vl und Gemma 3 sind hier die einzigen Optionen.
-
Zwei Modelle sind besser als eines
Kein Modell ist perfekt. Die Kombination aus Gemma 3 (Allrounder) und Qwen3 Thinking (Spezialist) deckt alle meine Anforderungen ab.
Nächste Schritte: Wie du die Modelle selbst testest
Falls du die Modelle selbst ausprobieren möchtest, hier eine kurze Anleitung:
- Ollama installieren (falls noch nicht geschehen):
brew install ollama
- Modelle herunterladen:
ollama pull gemma3:27b
ollama pull qwen3:30b-a3b-thinking-2507-q8_0
- Test-Prompts ausprobieren:
- Regel-Bruch-Test:
Wir spielen ein Spiel mit neuen mathematischen Regeln:
1. Die Zahl 5 existiert nicht. Wenn eine Rechnung 5 ergibt, wird sie zur 0.
2. Wenn eine Rechnung größer als 10 ist, wird 1 abgezogen.
3. Multiplikation wird zur Addition, aber nur, wenn ungerade Zahlen beteiligt sind.
Löse folgende Aufgabe Schritt für Schritt:
(3 * 2) + (3 * 3) = ?
- Cipher-Test:
Ich habe eine eigene Sprache erfunden. Hier sind Beispiele:
"Apfel" → "A1665L"
"Haus" → "H121S"
"Ball" → "B112L"
Wie würde "Katze" in dieser Sprache heißen?
- Geschwindigkeit messen:
ollama run gemma3:27b --verbose
Warum dieser Vergleich wichtig ist
Die meisten Artikel über lokale LLMs konzentrieren sich auf Benchmarks oder theoretische Fähigkeiten. Doch in der Praxis zählen Stabilität, Geschwindigkeit und Hardware-Effizienz. Mein Vergleich zeigt:
- Nicht das größte Modell ist das beste – sondern das, das auf deiner Hardware läuft.
- Reasoning ist kein Feature, das man immer braucht – oft reicht implizites Wissen.
- Multimodalität ist ein Killer-Feature – besonders für Entwickler.
Für mich als Full-Stack-Entwickler ist die Kombination aus Gemma 3 und Qwen3 Thinking die beste Lösung. Sie deckt alle meine Anforderungen ab – ohne dass ich auf Cloud-Dienste angewiesen bin.
Cite this article
Tobias Müller (2026): Vergleich lokaler Sprachmodelle: Reasoning, Deutsch und Hardware-Effizienz auf dem MacBook Pro M3. https://ispringen.dev
Lizenz: CC BY 4.0 – Bitte mit Namensnennung „Tobias Müller, ispringen.dev“.
Quellen