πŸ“š HF Wiki

aktualisiert 18:52:33

Hardware-Profil srv1356047

Stand: 2026-04-24 Zweck: Basis fΓΌr Modell-Architektur-Entscheidung nach D3-Tests Status: Reine Diagnose, keine Fix-Versuche

1. RAM


Size: 32 GB
Type: RAM
Error Correction: Multi-bit ECC
Speed: Unknown        ← KVM-VM versteckt Host-Info
Configured Speed: Unknown

Swap: 16 GB /swapfile, swappiness=10, aktiv.

Aktuell (ohne große Modelle geladen):

2. CPU


Model name (KVM):  AMD EPYC 9354P 32-Core Processor
BIOS Model:        pc-i440fx-10.1 CPU @ 2.0GHz
vCPUs (VM):        8 (of 32 physical)
Thread/Core:       1 (Hyperthreading disabled in VM)
Cores/Socket:      8
Sockets:           1
NUMA:              node0 = CPUs 0-7

Wichtig: Host-CPU ist EPYC 9354P (Zen 4), aber die VM bekommt nur 8 vCPUs β†’ Inference-Performance hΓ€ngt von Host-Scheduler-Contention ab. Noisy-Neighbor-Risiko.

3. CPU Features (SIMD)

AVX-Varianten aktiv und nutzbar:


avx, avx2
avx512f, avx512cd, avx512bw, avx512dq, avx512vl
avx512_bf16, avx512_bitalg, avx512_vbmi, avx512_vbmi2
avx512_vnni, avx512_vpopcntdq, avx512ifma

Theoretisch ideal fΓΌr LLM-Inference (avx512_vnni, avx512_bf16).

4. Ollama-Modelle


NAME             SIZE      MODIFIED
qwen3:14b-16k    9.3 GB    v1.6 D3
qwen3:8b-16k     5.2 GB    v1.6 D3
qwen3:14b        9.3 GB    baseline
qwen3:8b         5.2 GB    baseline
qwen3:1.7b       1.4 GB    baseline

5. Inference-Benchmark qwen3:8b

Prompt: "ZΓ€hle von 1 bis 10" β†’ 380 Token Antwort

MetrikWert
Total Duration3m 2.9s
Load Duration2.6s
Prompt Eval Count20 Tokens
Prompt Eval Rate2.90 tok/s
Prompt Eval Duration6.9s
Eval Count380 Tokens
Eval Rate2.20 tok/s
Eval Duration2m 53s

Einordnung

Erwartung fΓΌr qwen3:8b Q4_K_M auf AMD EPYC 9354P mit AVX-512:

MΓΆgliche Ursachen:

  1. KVM-VM-Throttling (Host-Scheduler gibt nur Teil der vCPU-Leistung)
  2. RAM-Bandwidth-Limit in der VM (Host-Speed Unknown β†’ nicht prΓΌfbar)
  3. AVX-512 im Ollama-Build evtl. nicht voll genutzt (manche Ollama-Releases fallen auf AVX2)
  4. Noisy Neighbor auf dem Hostinger-Shared-Host
  5. NUMA-Ineffizienz bei Single-Socket mit cross-core memory

Konsequenz fΓΌr Agent-Architektur

Bei 2.2 tok/s:

Das erklΓ€rt Test 1 Timeout: qwen3:8b mit realem Agent-Prompt kann auf dieser Hardware nicht innerhalb OpenClaw-Default-Timeout von 120s antworten. Selbst 300s reichen nicht fΓΌr volle Agent-Prompts.

DSGVO-strict-lokal ist auf dieser VPS-Hardware faktisch nicht erreichbar. Optionen:

  1. StΓ€rkere Hardware (dedizierter Server mit GPU oder mehr/garantierte vCPUs)
  2. Reduktion des Agent-Prompts (Tools minimieren, Workspace schrumpfen) unter ~500 Tokens
  3. Hybrid: 1.7b fΓΌr Dispatcher, 8b nur fΓΌr reduzierte Tasks, cloud fΓΌr komplexe
  4. Status Quo akzeptieren: Kimi K2 (NIM) primary fΓΌr non-customer-data, strikt lokal mit Wartezeit fΓΌr customer_data

Entscheidung bei Chapaty.