Hardware-Profil Deep-Dive srv1356047

Stand: 2026-04-24 06:49 UTC Ergänzend zu: hardware_profile.md Status: Reine Diagnose, keine Fixes

Aufgabe 1: CPU-Bandbreite (stress-ng matrixprod)


stress-ng --cpu 8 --cpu-method matrixprod --metrics-brief --timeout 30s

Ergebnis:

Metrik	Wert
Bogo ops	157 245
Real Time	30.01 s
User Time	226.34 s (8 Cores × 28s)
Sys Time	0.70 s
Bogo ops/s (real)	5 240
Bogo ops/s (usr+sys)	692

Referenz Zen 4 Bare-Metal EPYC 7003/9004 mit 8 Cores: typisch 8 000–15 000 bogo ops/s. Messung 5 240 → grob 35–65 % der Zen-4-Bare-Metal-Leistung.

Nicht komplett gedrosselt (wäre <1000), aber signifikant unter Host-Potenzial. Deutet auf geteilte vCPU-Ressource, nicht dedizierte.

Aufgabe 2: Ollama AVX-Status

Ollama-Version: 0.16.1
CPU-Features vom Runner erkannt:

AVX, AVX2, AVX512, AVX512_VBMI, AVX512_VNNI, FMA, F16C, BMI2, LLAMAFILE ✅

Geladene Runtime-Lib: libggml-cpu-icelake.so

→ das ist die AVX-512 + VBMI + VNNI optimierte Variante

Verfügbare Varianten im Container: alderlake, haswell, icelake, sandybridge, skylakex, sse42, x64
Flash Attention: Enabled
GPU Layers: 0 (keine GPU, reines CPU-Inference)
NumThreads: 8 (= alle vCPUs)

Befund: Ollama nutzt die passende AVX-512-Variante. Kein Build-Problem. AVX-512 wird korrekt eingesetzt.

Aufgabe 3: Zeit-Sensitivität (Inference-Varianz)

Drei aufeinanderfolgende Runs jetzt

Prompt: "Zähle von 1 bis 10" via ollama run qwen3:8b --verbose:

Run	Total	Prompt Eval	Eval Rate
1	1m 04.6s	56.98 tok/s	3.85 tok/s
2	1m 07.3s	127.66 tok/s	4.11 tok/s
3	1m 06.1s	186.79 tok/s	4.21 tok/s

Varianz innerhalb dieser Minute: eval 3.85→4.21 = 9 % (moderat). Prompt-Eval stark steigend — Cache/Kernel-Warmup, nicht Scheduling.

Vergleich zu gestern

Zeitpunkt	Eval Rate	Total (380 tok)
2026-04-23 ~05:10 UTC	2.20 tok/s	3m 2.9s
2026-04-24 ~06:47 UTC	3.85–4.21 tok/s	1m 4-7s

Faktor 1.8-1.9× Performance-Unterschied zwischen gestern und heute, ohne Änderung an Ollama/System. Das ist das Signal für noisy neighbor auf dem Hostinger-KVM-Host.

Geplante +4h / +8h Messungen

Cron-Jobs eingerichtet:


49 10 24 04 * /root/scripts/bench_qwen3_8b.sh  # +4h = 10:49 UTC
49 14 24 04 * /root/scripts/bench_qwen3_8b.sh  # +8h = 14:49 UTC

Output: /root/wiki/system/diagnostics/bench_samples/samples.tsv

Nach beiden Runs: Tabelle vervollständigen, Muster-Interpretation:

>50 % Varianz → noisy neighbor bestätigt
Stabil schlecht → permanente VPS-Drosselung
Stabil gut zu bestimmten Zeiten → timing-abhängiges Scheduling

Gesamt-Interpretation (aktueller Stand)

Hardware erreicht nur 35-65 % des Zen-4-Bare-Metal-Potenzials (stress-ng)
Ollama-Build korrekt — nutzt AVX-512 via icelake-Lib
Inference-Rate bereits heute 2× besser als gestern ohne System-Änderung
Kurz-Varianz (10 s) gering; Tag-Varianz (24 h) ~2×

Hypothese: Hostinger KVM-Host hat variable Last. Heute morgen (06:47 UTC) war er relativ frei, gestern (05:10 UTC) überlastet. Inferenz-Rate schwankt zwischen ~2 und ~5 tok/s je nach Host-Nutzung anderer VMs.

Selbst das beste heute gemessene Tempo (4.21 tok/s) liegt noch bei ~25 % der erwarteten Zen-4-Leistung. Die Frage ist: stabilisiert sich das auf 5-10 tok/s zu bestimmten Zeiten, oder bleibt es permanent zwischen 2-5?

Daten nach den +4h/+8h Cron-Runs auswerten.

Keine Fixes durchgeführt

OpenClaw unverändert (läuft, ungenutzt bis Entscheidung)
Ollama unverändert
Swap unverändert (16 GB, swappiness 10)
Modelle unverändert (qwen3:8b, qwen3:8b-16k, qwen3:14b, qwen3:14b-16k, qwen3:1.7b)