Hardware-Profil srv1356047
Stand: 2026-04-24 Zweck: Basis fΓΌr Modell-Architektur-Entscheidung nach D3-Tests Status: Reine Diagnose, keine Fix-Versuche
1. RAM
Size: 32 GB
Type: RAM
Error Correction: Multi-bit ECC
Speed: Unknown β KVM-VM versteckt Host-Info
Configured Speed: Unknown
Swap: 16 GB /swapfile, swappiness=10, aktiv.
Aktuell (ohne groΓe Modelle geladen):
- Used: 13 Gi
- Free: 4.2 Gi
- Available: 17 Gi
- Swap used: 184 Mi
2. CPU
Model name (KVM): AMD EPYC 9354P 32-Core Processor
BIOS Model: pc-i440fx-10.1 CPU @ 2.0GHz
vCPUs (VM): 8 (of 32 physical)
Thread/Core: 1 (Hyperthreading disabled in VM)
Cores/Socket: 8
Sockets: 1
NUMA: node0 = CPUs 0-7
Wichtig: Host-CPU ist EPYC 9354P (Zen 4), aber die VM bekommt nur 8 vCPUs β Inference-Performance hΓ€ngt von Host-Scheduler-Contention ab. Noisy-Neighbor-Risiko.
3. CPU Features (SIMD)
AVX-Varianten aktiv und nutzbar:
avx, avx2
avx512f, avx512cd, avx512bw, avx512dq, avx512vl
avx512_bf16, avx512_bitalg, avx512_vbmi, avx512_vbmi2
avx512_vnni, avx512_vpopcntdq, avx512ifma
Theoretisch ideal fΓΌr LLM-Inference (avx512_vnni, avx512_bf16).
4. Ollama-Modelle
NAME SIZE MODIFIED
qwen3:14b-16k 9.3 GB v1.6 D3
qwen3:8b-16k 5.2 GB v1.6 D3
qwen3:14b 9.3 GB baseline
qwen3:8b 5.2 GB baseline
qwen3:1.7b 1.4 GB baseline
5. Inference-Benchmark qwen3:8b
Prompt: "ZΓ€hle von 1 bis 10" β 380 Token Antwort
| Metrik | Wert |
| Total Duration | 3m 2.9s |
| Load Duration | 2.6s |
| Prompt Eval Count | 20 Tokens |
| Prompt Eval Rate | 2.90 tok/s |
| Prompt Eval Duration | 6.9s |
| Eval Count | 380 Tokens |
| Eval Rate | 2.20 tok/s |
| Eval Duration | 2m 53s |
Einordnung
Erwartung fΓΌr qwen3:8b Q4_K_M auf AMD EPYC 9354P mit AVX-512:
- Normale Rate: 15β25 tok/s
- Gemessen: 2.20 tok/s β ~10Γ zu langsam
MΓΆgliche Ursachen:
- KVM-VM-Throttling (Host-Scheduler gibt nur Teil der vCPU-Leistung)
- RAM-Bandwidth-Limit in der VM (Host-Speed
Unknownβ nicht prΓΌfbar) - AVX-512 im Ollama-Build evtl. nicht voll genutzt (manche Ollama-Releases fallen auf AVX2)
- Noisy Neighbor auf dem Hostinger-Shared-Host
- NUMA-Ineffizienz bei Single-Socket mit cross-core memory
Konsequenz fΓΌr Agent-Architektur
Bei 2.2 tok/s:
- 50 Tokens Antwort β 23 s Inference
- 5000 Tokens Prompt-Prefill (Tool-Schema+Workspace) bei 2.9 tok/s β ~28 min Prefill
Das erklΓ€rt Test 1 Timeout: qwen3:8b mit realem Agent-Prompt kann auf dieser Hardware nicht innerhalb OpenClaw-Default-Timeout von 120s antworten. Selbst 300s reichen nicht fΓΌr volle Agent-Prompts.
DSGVO-strict-lokal ist auf dieser VPS-Hardware faktisch nicht erreichbar. Optionen:
- StΓ€rkere Hardware (dedizierter Server mit GPU oder mehr/garantierte vCPUs)
- Reduktion des Agent-Prompts (Tools minimieren, Workspace schrumpfen) unter ~500 Tokens
- Hybrid: 1.7b fΓΌr Dispatcher, 8b nur fΓΌr reduzierte Tasks, cloud fΓΌr komplexe
- Status Quo akzeptieren: Kimi K2 (NIM) primary fΓΌr non-customer-data, strikt lokal mit Wartezeit fΓΌr customer_data
Entscheidung bei Chapaty.