Hardware-Profil srv1356047

Stand: 2026-04-24 Zweck: Basis für Modell-Architektur-Entscheidung nach D3-Tests Status: Reine Diagnose, keine Fix-Versuche

1. RAM


Size: 32 GB
Type: RAM
Error Correction: Multi-bit ECC
Speed: Unknown        ← KVM-VM versteckt Host-Info
Configured Speed: Unknown

Swap: 16 GB /swapfile, swappiness=10, aktiv.

Aktuell (ohne große Modelle geladen):

Used: 13 Gi
Free: 4.2 Gi
Available: 17 Gi
Swap used: 184 Mi

2. CPU


Model name (KVM):  AMD EPYC 9354P 32-Core Processor
BIOS Model:        pc-i440fx-10.1 CPU @ 2.0GHz
vCPUs (VM):        8 (of 32 physical)
Thread/Core:       1 (Hyperthreading disabled in VM)
Cores/Socket:      8
Sockets:           1
NUMA:              node0 = CPUs 0-7

Wichtig: Host-CPU ist EPYC 9354P (Zen 4), aber die VM bekommt nur 8 vCPUs → Inference-Performance hängt von Host-Scheduler-Contention ab. Noisy-Neighbor-Risiko.

3. CPU Features (SIMD)

AVX-Varianten aktiv und nutzbar:


avx, avx2
avx512f, avx512cd, avx512bw, avx512dq, avx512vl
avx512_bf16, avx512_bitalg, avx512_vbmi, avx512_vbmi2
avx512_vnni, avx512_vpopcntdq, avx512ifma

Theoretisch ideal für LLM-Inference (avx512_vnni, avx512_bf16).

4. Ollama-Modelle


NAME             SIZE      MODIFIED
qwen3:14b-16k    9.3 GB    v1.6 D3
qwen3:8b-16k     5.2 GB    v1.6 D3
qwen3:14b        9.3 GB    baseline
qwen3:8b         5.2 GB    baseline
qwen3:1.7b       1.4 GB    baseline

5. Inference-Benchmark qwen3:8b

Prompt: "Zähle von 1 bis 10" → 380 Token Antwort

Metrik	Wert
Total Duration	3m 2.9s
Load Duration	2.6s
Prompt Eval Count	20 Tokens
Prompt Eval Rate	2.90 tok/s
Prompt Eval Duration	6.9s
Eval Count	380 Tokens
Eval Rate	2.20 tok/s
Eval Duration	2m 53s

Einordnung

Erwartung für qwen3:8b Q4_K_M auf AMD EPYC 9354P mit AVX-512:

Normale Rate: 15–25 tok/s
Gemessen: 2.20 tok/s → ~10× zu langsam

Mögliche Ursachen:

KVM-VM-Throttling (Host-Scheduler gibt nur Teil der vCPU-Leistung)
RAM-Bandwidth-Limit in der VM (Host-Speed Unknown → nicht prüfbar)
AVX-512 im Ollama-Build evtl. nicht voll genutzt (manche Ollama-Releases fallen auf AVX2)
Noisy Neighbor auf dem Hostinger-Shared-Host
NUMA-Ineffizienz bei Single-Socket mit cross-core memory

Konsequenz für Agent-Architektur

Bei 2.2 tok/s:

50 Tokens Antwort → 23 s Inference
5000 Tokens Prompt-Prefill (Tool-Schema+Workspace) bei 2.9 tok/s → ~28 min Prefill

Das erklärt Test 1 Timeout: qwen3:8b mit realem Agent-Prompt kann auf dieser Hardware nicht innerhalb OpenClaw-Default-Timeout von 120s antworten. Selbst 300s reichen nicht für volle Agent-Prompts.

DSGVO-strict-lokal ist auf dieser VPS-Hardware faktisch nicht erreichbar. Optionen:

Stärkere Hardware (dedizierter Server mit GPU oder mehr/garantierte vCPUs)
Reduktion des Agent-Prompts (Tools minimieren, Workspace schrumpfen) unter ~500 Tokens
Hybrid: 1.7b für Dispatcher, 8b nur für reduzierte Tasks, cloud für komplexe
Status Quo akzeptieren: Kimi K2 (NIM) primary für non-customer-data, strikt lokal mit Wartezeit für customer_data

Entscheidung bei Chapaty.