πŸ“š HF Wiki

aktualisiert 18:52:33

Hardware-Profil Deep-Dive srv1356047

Stand: 2026-04-24 06:49 UTC ErgΓ€nzend zu: hardware_profile.md Status: Reine Diagnose, keine Fixes

Aufgabe 1: CPU-Bandbreite (stress-ng matrixprod)


stress-ng --cpu 8 --cpu-method matrixprod --metrics-brief --timeout 30s

Ergebnis:

MetrikWert
Bogo ops157 245
Real Time30.01 s
User Time226.34 s (8 Cores Γ— 28s)
Sys Time0.70 s
Bogo ops/s (real)5 240
Bogo ops/s (usr+sys)692

Referenz Zen 4 Bare-Metal EPYC 7003/9004 mit 8 Cores: typisch 8 000–15 000 bogo ops/s. Messung 5 240 β†’ grob 35–65 % der Zen-4-Bare-Metal-Leistung.

Nicht komplett gedrosselt (wΓ€re <1000), aber signifikant unter Host-Potenzial. Deutet auf geteilte vCPU-Ressource, nicht dedizierte.

Aufgabe 2: Ollama AVX-Status

Befund: Ollama nutzt die passende AVX-512-Variante. Kein Build-Problem. AVX-512 wird korrekt eingesetzt.

Aufgabe 3: Zeit-SensitivitΓ€t (Inference-Varianz)

Drei aufeinanderfolgende Runs jetzt

Prompt: "ZΓ€hle von 1 bis 10" via ollama run qwen3:8b --verbose:

RunTotalPrompt EvalEval Rate
11m 04.6s56.98 tok/s3.85 tok/s
21m 07.3s127.66 tok/s4.11 tok/s
31m 06.1s186.79 tok/s4.21 tok/s

Varianz innerhalb dieser Minute: eval 3.85β†’4.21 = 9 % (moderat). Prompt-Eval stark steigend β€” Cache/Kernel-Warmup, nicht Scheduling.

Vergleich zu gestern

ZeitpunktEval RateTotal (380 tok)
2026-04-23 ~05:10 UTC2.20 tok/s3m 2.9s
2026-04-24 ~06:47 UTC3.85–4.21 tok/s1m 4-7s

Faktor 1.8-1.9Γ— Performance-Unterschied zwischen gestern und heute, ohne Γ„nderung an Ollama/System. Das ist das Signal fΓΌr noisy neighbor auf dem Hostinger-KVM-Host.

Geplante +4h / +8h Messungen

Cron-Jobs eingerichtet:


49 10 24 04 * /root/scripts/bench_qwen3_8b.sh  # +4h = 10:49 UTC
49 14 24 04 * /root/scripts/bench_qwen3_8b.sh  # +8h = 14:49 UTC

Output: /root/wiki/system/diagnostics/bench_samples/samples.tsv

Nach beiden Runs: Tabelle vervollstΓ€ndigen, Muster-Interpretation:

Gesamt-Interpretation (aktueller Stand)

  1. Hardware erreicht nur 35-65 % des Zen-4-Bare-Metal-Potenzials (stress-ng)
  2. Ollama-Build korrekt β€” nutzt AVX-512 via icelake-Lib
  3. Inference-Rate bereits heute 2Γ— besser als gestern ohne System-Γ„nderung
  4. Kurz-Varianz (10 s) gering; Tag-Varianz (24 h) ~2Γ—

Hypothese: Hostinger KVM-Host hat variable Last. Heute morgen (06:47 UTC) war er relativ frei, gestern (05:10 UTC) ΓΌberlastet. Inferenz-Rate schwankt zwischen ~2 und ~5 tok/s je nach Host-Nutzung anderer VMs.

Selbst das beste heute gemessene Tempo (4.21 tok/s) liegt noch bei ~25 % der erwarteten Zen-4-Leistung. Die Frage ist: stabilisiert sich das auf 5-10 tok/s zu bestimmten Zeiten, oder bleibt es permanent zwischen 2-5?

Daten nach den +4h/+8h Cron-Runs auswerten.

Keine Fixes durchgefΓΌhrt