Hardware-Profil Deep-Dive srv1356047
Stand: 2026-04-24 06:49 UTC ErgΓ€nzend zu: hardware_profile.md Status: Reine Diagnose, keine Fixes
Aufgabe 1: CPU-Bandbreite (stress-ng matrixprod)
stress-ng --cpu 8 --cpu-method matrixprod --metrics-brief --timeout 30s
Ergebnis:
| Metrik | Wert |
| Bogo ops | 157 245 |
| Real Time | 30.01 s |
| User Time | 226.34 s (8 Cores Γ 28s) |
| Sys Time | 0.70 s |
| Bogo ops/s (real) | 5 240 |
| Bogo ops/s (usr+sys) | 692 |
Referenz Zen 4 Bare-Metal EPYC 7003/9004 mit 8 Cores: typisch 8 000β15 000 bogo ops/s. Messung 5 240 β grob 35β65 % der Zen-4-Bare-Metal-Leistung.
Nicht komplett gedrosselt (wΓ€re <1000), aber signifikant unter Host-Potenzial. Deutet auf geteilte vCPU-Ressource, nicht dedizierte.
Aufgabe 2: Ollama AVX-Status
- Ollama-Version: 0.16.1
- CPU-Features vom Runner erkannt:
- Geladene Runtime-Lib:
libggml-cpu-icelake.so - VerfΓΌgbare Varianten im Container: alderlake, haswell, icelake, sandybridge, skylakex, sse42, x64
- Flash Attention: Enabled
- GPU Layers: 0 (keine GPU, reines CPU-Inference)
- NumThreads: 8 (= alle vCPUs)
AVX, AVX2, AVX512, AVX512_VBMI, AVX512_VNNI, FMA, F16C, BMI2, LLAMAFILE β
β das ist die AVX-512 + VBMI + VNNI optimierte Variante
Befund: Ollama nutzt die passende AVX-512-Variante. Kein Build-Problem. AVX-512 wird korrekt eingesetzt.
Aufgabe 3: Zeit-SensitivitΓ€t (Inference-Varianz)
Drei aufeinanderfolgende Runs jetzt
Prompt: "ZΓ€hle von 1 bis 10" via ollama run qwen3:8b --verbose:
| Run | Total | Prompt Eval | Eval Rate |
| 1 | 1m 04.6s | 56.98 tok/s | 3.85 tok/s |
| 2 | 1m 07.3s | 127.66 tok/s | 4.11 tok/s |
| 3 | 1m 06.1s | 186.79 tok/s | 4.21 tok/s |
Varianz innerhalb dieser Minute: eval 3.85β4.21 = 9 % (moderat). Prompt-Eval stark steigend β Cache/Kernel-Warmup, nicht Scheduling.
Vergleich zu gestern
| Zeitpunkt | Eval Rate | Total (380 tok) |
| 2026-04-23 ~05:10 UTC | 2.20 tok/s | 3m 2.9s |
| 2026-04-24 ~06:47 UTC | 3.85β4.21 tok/s | 1m 4-7s |
Faktor 1.8-1.9Γ Performance-Unterschied zwischen gestern und heute, ohne Γnderung an Ollama/System. Das ist das Signal fΓΌr noisy neighbor auf dem Hostinger-KVM-Host.
Geplante +4h / +8h Messungen
Cron-Jobs eingerichtet:
49 10 24 04 * /root/scripts/bench_qwen3_8b.sh # +4h = 10:49 UTC
49 14 24 04 * /root/scripts/bench_qwen3_8b.sh # +8h = 14:49 UTC
Output: /root/wiki/system/diagnostics/bench_samples/samples.tsv
Nach beiden Runs: Tabelle vervollstΓ€ndigen, Muster-Interpretation:
- >50 % Varianz β noisy neighbor bestΓ€tigt
- Stabil schlecht β permanente VPS-Drosselung
- Stabil gut zu bestimmten Zeiten β timing-abhΓ€ngiges Scheduling
Gesamt-Interpretation (aktueller Stand)
- Hardware erreicht nur 35-65 % des Zen-4-Bare-Metal-Potenzials (stress-ng)
- Ollama-Build korrekt β nutzt AVX-512 via icelake-Lib
- Inference-Rate bereits heute 2Γ besser als gestern ohne System-Γnderung
- Kurz-Varianz (10 s) gering; Tag-Varianz (24 h) ~2Γ
Hypothese: Hostinger KVM-Host hat variable Last. Heute morgen (06:47 UTC) war er relativ frei, gestern (05:10 UTC) ΓΌberlastet. Inferenz-Rate schwankt zwischen ~2 und ~5 tok/s je nach Host-Nutzung anderer VMs.
Selbst das beste heute gemessene Tempo (4.21 tok/s) liegt noch bei ~25 % der erwarteten Zen-4-Leistung. Die Frage ist: stabilisiert sich das auf 5-10 tok/s zu bestimmten Zeiten, oder bleibt es permanent zwischen 2-5?
Daten nach den +4h/+8h Cron-Runs auswerten.
Keine Fixes durchgefΓΌhrt
- OpenClaw unverΓ€ndert (lΓ€uft, ungenutzt bis Entscheidung)
- Ollama unverΓ€ndert
- Swap unverΓ€ndert (16 GB, swappiness 10)
- Modelle unverΓ€ndert (qwen3:8b, qwen3:8b-16k, qwen3:14b, qwen3:14b-16k, qwen3:1.7b)