πŸ“š HF Wiki

aktualisiert 18:52:23

OpenClaw β†’ Codex Fallback Diagnosis

Datum: 2026-04-24 Rating: πŸ”΄ BLOCKER fΓΌr qwen3-primary Onboarding-Test Status: Wartet auf Chapaty-Entscheidung (A vs C)

Symptom

Howard-Test "Antworte kurz: welches Model nutzt du gerade?" dauert 5m48s. executionTrace.winnerModel = "gpt-5.4" (Codex), obwohl Howard-Config primary=qwen3:8b-32k. Codex halluziniert Antwort "Ich nutze gerade ollama/qwen3:8b-32k" β€” faktisch falsch, echt war Codex.

Angewandte Fixes (alle richtig, aber nicht kausal)

FixWert vorher β†’ nachherKausal?
agents.defaults.contextTokens16000 β†’ 32000nein
agents.defaults.heartbeat.modelqwen3:8b β†’ qwen3:8b-32knein
commands.nativeSkills"auto" β†’ falsenein (reduziert Prompt, verhindert aber OOM nicht)
agents.defaults.model.primaryllama3.1:8b β†’ qwen3:8b-32knein (Howard-per-agent-Config zog schon)

Echter Root-Cause: OOM

Ollama-Logs wΓ€hrend Test (05:13–05:19 UTC):


05:13:10 loading model layers=37           (qwen3:8b-Variant, Primary)
05:14:22 loading model layers=37           (Retry)
05:16:21 POST /api/chat β†’ 500 nach 1m59s   (qwen3:8b-32k crash)
05:16:25 loading model layers=41           (qwen3:14b-32k, Fallback)
05:16:52 error: llama runner process has terminated: signal: killed
05:17:16 error: llama runner process has terminated: signal: killed
05:18:23 error: llama runner process has terminated: signal: killed
05:19:07 error: llama runner process has terminated: signal: killed

signal: killed = SIGKILL = OOM Killer.

Host-Status wΓ€hrend Test:

Warum qwen3:8b-32k schon beim Primary OOM't

Selbst bei leerem Warm-Up (/api/generate mit 5 Tokens) = 10GB RAM βœ…. Bei realem OpenClaw-Request (System-Prompt + Tool-Schemas + Workspace ~5–8k Token):

Warum qwen3:14b-32k als Fallback 4Γ— scheitert

14B weights = 9 GB base. Plus KV fΓΌr 32k ctx = ~20+ GB. Nie genug free. OOM-Killer tΓΆtet Ollama-Runner (signal killed, nicht graceful shutdown).

Warum Codex "gewinnt"

OpenClaw-Cascade:

  1. qwen3:8b-32k β†’ 1m59s β†’ timeout/500
  2. qwen3:14b-32k β†’ mehrfach OOM (~2min pro Versuch)
  3. nvidia-nim/llama-3.3-70b β†’ nicht attemptet (oder auch gefailed?)
  4. openai-codex/gpt-5.4 β†’ βœ… success, winnerModel

fallbackUsed: false im Trace ist irrefΓΌhrend β€” OpenClaw zΓ€hlt Codex-Attempts als eigenen Primary-Versuch, nicht als Fallback.

Entscheidungsoptionen

Option A β€” Swap + num_ctx=16384 (technisch)

Option B β€” ZurΓΌck auf qwen3:8b (8k ctx, kein -32k)

Option C β€” Codex als Primary akzeptieren

Option D β€” Hybrid (Lenny=qwen3:8b 8k / Sheldon=Codex / Howard=Codex)

Empfehlung

D β€” Hybrid. Die 32GB-Hardware reicht nicht fΓΌr stabiles qwen3-32k. Lenny lokal schnell halten, Howard/Sheldon auf Codex (gratis) fΓΌr QualitΓ€t.

Onboarding-Test kann mit Option D starten.