Viaviva Agentensystem — Konzept und Strategie 2026

Stand: 2026-04-27 Status: Konzept-Dokument zur Auswertung vor Umsetzung Adressat: Chapaty (Review) und Claude Code (Umsetzungs-Basis) Vorgänger-Konzept: OpenClaw-Stack (CLAUDE.md, ARCHITEKTUR_V1.6.md, 04_NEXT_STEPS.md)

---

Worum es in diesem Dokument geht

Dieses Dokument beschreibt das überarbeitete Agentensystem für das Viaviva-Ökosystem (Hochfrequenz, GFKB, Immovia, Viaviva-Kern). Es ersetzt das bisherige OpenClaw-Konzept aus dem Übergabe-Paket vom April 2026.

Das Dokument ist bewusst keine reine Auftragsanweisung sondern eine erklärende Konzept-Beschreibung. Du sollst es lesen können und verstehen warum welche Entscheidung getroffen wurde, bevor irgendetwas umgesetzt wird. Erst nach deiner Zustimmung werden daraus konkrete Auftragsdokumente für Claude Code abgeleitet.

Falls du beim Lesen merkst dass etwas nicht stimmt, anders entschieden werden soll, oder unklar ist — markiere es. Wir arbeiten dann an dieser Stelle nach. Erst wenn das Konzept solide steht beginnen wir mit der Umsetzung.

---

Teil 1 — Was hat zu dieser Überarbeitung geführt

Erkenntnisse aus dem alten OpenClaw-Stack

Das ursprüngliche Konzept hatte mehrere strukturelle Probleme die im Betrieb sichtbar wurden:

Problem 1: Große Multi-Step-Prompts auf CPU-only-Hardware

OpenClaw hat einen Reasoning-Stil bei dem große Prompts (System-Prompt, Tool-Schema, Persona-Beschreibung, Aufgaben-Kontext, Memory) zu jedem LLM-Call geschickt werden. Auf der vorhandenen Hardware (8 vCPU EPYC, kein GPU) bedeutet das pro Call erhebliche Inferenz-Last für qwen3:14b. Bei Multi-Step-Workflows (Dispatcher → Architekt → Worker → QA) summiert sich das. Konkretes Beispiel aus dem Live-Betrieb: ein qwen3:14b-Call blockierte 7 von 8 CPU-Kernen. Während dieser Zeit ist das gesamte System praktisch unbenutzbar für andere Tasks.

Problem 2: Acht Personas als Architektur-Komponenten

Die Aufteilung in Lenny (Dispatcher), Howard (Builder), Sheldon (Architect), Amy (QA), Raj (Ops), Zack (Media), Bernadette (Security), plus Penny als Telegram-Frontend, bedeutet: jede Persona hat eigenen System-Prompt, eigene Konfiguration, eigene Schablonen-Zuordnung. Funktional sind das aber im Grunde drei Modell-Größen: ein Klassifizierer (1.7B), ein Standard-Worker (8B), ein schwerer Worker (14B). Die Persona-Vielfalt verteilt Komplexität ohne funktionalen Gewinn.

Problem 3: OpenClaw als Engine ist redundant

Was OpenClaw macht — Telegram-Trigger empfangen, LLM-Call orchestrieren, Antwort zurückschicken — kann n8n nativ. n8n hat Telegram-Trigger-Node, HTTP-Request-Node für Ollama, alle benötigten Bausteine eingebaut. OpenClaw verteilt eine Komponente die nicht nötig ist und bringt zusätzliche Failure-Modes (Stuck-Sessions, Reasoning-JSON-Bugs, Disk-Recovery-Probleme aus der Vergangenheit).

Problem 4: RAG-Wiki als Eigenbau wo Standard reicht

Das geplante /root/openclaw-wiki/ mit Snippet-Lernschleife und PDF-Ingestion war ein eigenes Subsystem in Aufbau. Für Email-Antwort-Templates mit Self-Learning reicht eine Q+A-Tabelle in Postgres mit pgvector-Embedding und Confidence-Threshold — kein neues Subsystem.

Was am alten Konzept richtig war und bleibt

Bei aller Kritik gibt es Kern-Entscheidungen die strategisch korrekt sind und übernommen werden:

Perfex als Wahrheit / Plumbing als Mittel / Sprache als Veredelung — die saubere Schichtung
Schablonen-Prinzip — deterministische Templates füllen Lücken statt LLMs frei generieren zu lassen
Eskalations-Pyramide — von kein-LLM über klein-lokal über groß-lokal zu Cloud
Telegram als Steuer-Oberfläche — kein Web-UI, kein Login, alles per Messenger
Approval-Loops mit Self-Improvement — Mensch korrigiert, System lernt

---

Teil 2 — Die zentrale strategische Verschiebung

Vom "Agent-First-System" zum "klassisch-orchestrierten Stack mit LLM-Veredelung"

Das ist die wichtigste konzeptuelle Verschiebung. Das alte Konzept versuchte einen LLM-Agenten als Generalisten für alle Aufgaben zu bauen — Dispatcher entscheidet alles per Reasoning, Workflows entstehen ad-hoc.

Das neue Konzept dreht die Reihenfolge um:

Klassische Orchestrierung als Fundament — n8n-Workflows mit deterministischer Logik, Schablonen, IF-THEN-Regeln, Datenbank-Lookups
LLM nur dort wo wirklich Sprache verarbeitet werden muss — Email-Antwort-Personalisierung, Klassifikation ambiger Eingaben, Long-Form-Content-Generation
Cloud-LLM für anspruchsvolle Tasks, lokales LLM nur für klassifizier/embedding-Aufgaben

Warum diese Verschiebung sinnvoll ist

Token-Geschwindigkeit als limitierender Faktor: auf CPU-only-Hardware ist jeder LLM-Call teuer. Wenn ein Großteil der Workflows ohne LLM auskommt weil sie deterministisch sind, sparen wir entsprechend Inferenz-Last. Das macht die Hardware ausreichend.

Vorhersagbarkeit: klassische Workflows sind vorhersagbar. LLM-Outputs sind probabilistisch. Bei produktiven Geschäftsprozessen (Newsletter-Versand, Bestellabwicklung, Lead-Übermittlung) ist Vorhersagbarkeit wichtiger als Flexibilität.

Wartbarkeit: ein n8n-Workflow ist visuell, debugbar, testbar. Ein LLM-Agent-Reasoning-Pfad ist eine Blackbox. Bei Fehlern willst du den Workflow im n8n-UI lesen können.

Stabilität bei Token-Engpässen: wenn Cloud-LLM-Quotas erschöpft sind oder lokale Inferenz hängt, bleiben deterministische Workflows funktionsfähig. Das System bricht nicht zusammen.

LLMs für das was sie wirklich gut können: Sprache verstehen und produzieren. Nicht für komplexe Logik-Bäume oder Tool-Auswahl-Reasoning auf schwacher Hardware.

Konkretes Beispiel der Verschiebung

Alt — Agent-First:


Email kommt → OpenClaw-Dispatcher (qwen3:14b, großer Prompt)
  → entscheidet Workflow-Typ (Reasoning)
  → ruft Howard auf (qwen3:14b)
  → Howard generiert Antwort (Long Reasoning)
  → Amy QA (qwen3:8b)
  → Versand

Neu — Stack-First:


Email kommt → n8n-Webhook
  → Spam-Filter-Regel (kein LLM)
  → Q+A-Wiki-Suche via pgvector (kein LLM)
  → Match > 0.85? → fertige Antwort senden, dich informieren
  → Match 0.7-0.85? → qwen3:8b personalisiert Antwort
                    → Telegram-Approval von dir
  → Match < 0.7? → Cloud-LLM generiert Draft
                 → Telegram-Approval von dir

Gleicher Output, andere Architektur. Vorhersagbarer, ressourcen-schonender.

---

Teil 3 — Die Multi-Server-Architektur und Eigentums-Trennung

Warum die Architektur über zwei Server verteilt ist

Du betreust GFKB als Partner. Die saubere Doktrin lautet: bei Trennung der Partnerschaft müssen alle GFKB-relevanten Daten und Operationen für GFKB weiternutzbar sein, ohne dich. Das ist nicht nur freundlich gemeint sondern juristisch und ethisch sauber.

Daraus folgt eine klare Eigentumstrennung:

All-Inkl (GFKB-Eigentum):

Alle GFKB-Kundendaten, Mitgliederdaten, Bestellhistorien
WordPress-Sites von GFKB (gfkb.org, mitglieder.gfkb.org)
WooCommerce-Daten
Perfex-GFKB als CRM
Email-Konten der GFKB

Hostinger (dein Eigentum, dein Service-Layer):

Alle Eigenmarken (Hochfrequenz, Immovia, Viaviva)
Agent-Stack, Workflows, Schablonen
Dein internes CRM (Perfex-Viaviva auf hq.viaviva.team)
Member-App-Plattform
Audio-Streaming für HF-Hörbücher

Die Werkstattbuch-vs-Lieferschein-Disziplin

Wenn dein Hostinger-System für GFKB arbeitet, läuft das wie bei einem externen Dienstleister:

Werkstattbuch (Perfex-Viaviva, deins): detaillierte Operations-Logs. Welcher Workflow lief, welches Tool wurde genutzt, welche LLM-Antwort kam, welche Schablone wurde verwendet. Das sind deine Betriebsgeheimnisse und Werkzeuge.

Lieferschein (Perfex-GFKB, ihres): Ergebnis-Dokumentation. "Newsletter Thema X versandt am Y an Z Empfänger, Open-Rate W. Anhang: Newsletter-HTML, Empfängerliste, Tracking-Daten." Das ist GFKB-Eigentum und überlebt die Partnerschaft.

Praktisch heißt das: jeder n8n-Workflow der GFKB-Daten verarbeitet, hat als finalen Schritt einen Perfex-GFKB-API-Call der das Ergebnis dort einträgt. Kein GFKB-Workflow ohne Niederschlag bei GFKB.

Bei Trennung: du nimmst dein Werkstattbuch mit (Workflows, Schablonen, Brand-Voices, Q+A-Wiki-Embeddings). GFKB behält ihre Kundendaten, ihre Ergebnis-Historie, ihr Perfex. Beide Seiten sind handlungsfähig.

Warum die Eigenmarken alle auf Hostinger laufen

Hochfrequenz, Immovia und Viaviva sind deine Marken. Hier gibt es keine Eigentumstrennung, alles auf einem Server (Hostinger), eine kohärente Welt. Das vereinfacht die Architektur erheblich für den Großteil der Operations und macht die Cross-Server-Komplexität zu einem GFKB-Sonderfall statt zur Standard-Architektur.

---

Teil 4 — Der Tech-Stack und warum jede Komponente

Die Stack-Karte


┌─────────────────────────────────────────────────────────────┐
│  STEUERUNG-LAYER                                            │
│  Telegram-Bot (Mensch ↔ System) | Outline-Wiki (Inbox)     │
└──────────┬──────────────────────────────────────────────────┘
           │
┌──────────┴──────────────────────────────────────────────────┐
│  ORCHESTRATOR-LAYER                                         │
│  n8n (Workflows) | Postgres+pgvector (State + Q+A-Wiki)    │
└──────────┬──────────────────────────────────────────────────┘
           │
┌──────────┴──────────────────────────────────────────────────┐
│  SERVICE-LAYER                                              │
│  Listmonk (Newsletter) | Mailcow (Mailserver)              │
│  Chatwoot (Inbox-Helpdesk) | Plausible (Tracking)          │
│  Browser-Use (Web-Automation) | SearXNG (Suche)            │
│  Vaultwarden (Secrets) | Uptime-Kuma (Monitoring)          │
└──────────┬──────────────────────────────────────────────────┘
           │
┌──────────┴──────────────────────────────────────────────────┐
│  LLM-LAYER                                                  │
│  Lokal: qwen3:1.7b (Klassifikation), qwen3:8b (Standard)   │
│  Cloud: Kimi K2, Codex/GPT-5, Claude (über Abos)           │
│  ElevenLabs Pro (Voice für Video-Pipeline)                 │
└──────────┬──────────────────────────────────────────────────┘
           │
┌──────────┴──────────────────────────────────────────────────┐
│  CONTENT-LAYER                                              │
│  Astro (Static Sites Eigenmarken)                           │
│  Plugin v2 (WP-Pflege für GFKB-WP-Sites)                   │
│  Member-App (SvelteKit, HF-Universum)                       │
│  Remotion (Video-Pipeline)                                  │
└─────────────────────────────────────────────────────────────┘

Warum diese Komponenten

Telegram als Steuer-Oberfläche — bewährt aus Vorgängerkonzept, mobiler Zugriff jederzeit, Approval-Loops natürlich. Bleibt.

Outline als Wiki und Auftrags-Inbox — OSS, MIT-Lizenz, hat REST-API plus Webhooks, läuft als ein Docker-Container mit Postgres-Backend. Du arbeitest in Claude.ai mit Outline-MCP-Anbindung, schreibst Aufträge in einem /auftrage/inbox/-Ordner, n8n triggert auf Webhook bei neuen Einträgen. Eigenes Brand-Wiki pro Marke (HF-Voice, GFKB-Compliance, Immovia-Objektlogik). Das ersetzt das geplante OpenClaw-Wiki.

n8n als Orchestrator — ist im aktuellen Stack schon vorhanden, hat alle nötigen Trigger und Nodes (Telegram, HTTP, Webhook, Cron, IMAP, alles), visuell debugbar. Wird die zentrale Schaltstelle für alle Workflows.

Postgres mit pgvector — Postgres ist im Stack, pgvector-Extension ist das Standard-Tool für Embedding-basierte Suche. Q+A-Wiki, Member-App-Daten, Studien-Datenbank, alles in einem System.

Listmonk — OSS Newsletter-System mit Sequencing, Behavioral-Triggers, REST-API, Open/Click-Tracking. Genau das was Newsletter-Workflows brauchen. Gibt's schon, bleibt.

Mailcow — OSS All-in-One-Mailserver für die GoDaddy-Migration. Ersetzt das jetzige GoDaddy-Mail-Setup. Eigenständig, alles auf Hostinger, 7 Konten zu migrieren.

Chatwoot — OSS Helpdesk der Email + Telegram + WhatsApp + Web-Chat in eine Inbox legt, mit Auto-Reply-Regeln und Tagging. Hier landen alle Kundendialoge, n8n hängt drüber für Klassifikation und Q+A-Wiki-Match. Macht den Email-Workflow viel sauberer als die jetzige Multi-Inbox-Lösung.

Plausible — OSS Analytics, cookieless, DSGVO-tauglich. Wird Behavioral-Trigger-Quelle für Onboarding-Workflows. Alternative wäre Eigenbau-Tracking im Plugin v2 — Entscheidung kommt mit Plugin-v2-Reife.

Browser-Use — OSS Browser-Automation mit LLM-Backend. Für Aufgaben wo gescraped, ein Formular ausgefüllt, oder ein Login bedient werden muss (z.B. Universitäts-Webseiten für Lead-Recherche). Ersetzt Browserless+manueller-OpenClaw-Kombi durch eine fokussierte Lösung.

SearXNG — OSS Meta-Search-Engine self-hosted. Ersetzt Google-API-Calls für den Großteil der Recherche-Aufgaben. Kostenlos, anonym.

Vaultwarden — OSS self-hosted Bitwarden für Secret-Management. Alle API-Tokens, Passwörter, Credentials zentral. Ablöser für die jetzige .secrets/-Datei-Struktur.

Uptime-Kuma — OSS Monitoring mit Telegram-Alerts. Statt selbstgebautes Diagnostic-Script. Erkennt Container-Down, Service-Down, hohe CPU-Last automatisch.

Lokale LLMs (qwen3-Familie):

qwen3:1.7b für schnelle Klassifikation (Email-Typ, Sentiment, Routing-Entscheidungen)
qwen3:8b für Standard-Tasks (kurze Personalisierungen, Q+A-Wiki-Anreicherung)
qwen3:14b nur für Spezialfälle die wirklich tiefes Reasoning brauchen, ausschließlich als Batch-Job, nicht in interaktiven Pfaden

Cloud-LLMs: für anspruchsvolle Sprach-Tasks (Long-Form-Content, Script-Generation, Email-Drafts mit Brand-Voice). Nutzen deine bestehenden Abos (Kimi K2 NIM, Codex/GPT-5, Claude). Lokale Modelle sind Backup wenn Cloud-Quota erschöpft.

ElevenLabs Pro — für Video-Pipeline (Voice-Cloning, Multi-Voice-Generation für Zitate-Collagen). Aktiv wenn Video-Pipeline gebaut wird.

Was raus fliegt aus dem alten Stack

OpenClaw — komplett. Funktion wird von n8n übernommen.

LiteLLM — wird durch direkte Ollama-API-Calls aus n8n ersetzt. Eine Schicht weniger.

media_server.py auf Port 8766 — wird durch Chatwoot + Mailcow + n8n-IMAP/SMTP-Nodes ersetzt. Sauberer und wartbarer.

Acht-Personas-Architektur — wird zu drei funktionalen Modell-Größen reduziert. Personas können als Stilvorgaben in einzelnen n8n-Workflows weiterleben (Telegram-Antworten dürfen "Lenny-Stil" haben), aber sie sind keine Architektur-Komponenten mehr.

OpenClaw-Wiki als Eigenbau-Subsystem — wird zu Outline (allgemeines Wiki) plus Postgres-pgvector-Tabelle (Q+A-Wiki spezifisch).

---

Teil 5 — Die zentrale Konvention: Auftrags-Inbox

Was das ist und warum es wichtig ist

Eine der wichtigsten Architektur-Entscheidungen ist die zentrale Auftrags-Inbox. Das ist eine Konvention die alle Akteure (du, Claude Code, Cloud-LLMs, n8n, lokale LLMs) miteinander verbindet.

Konkret: in Outline gibt es eine Ordnerstruktur:


/auftrage/
  /inbox/          (neu eingegangene Aufträge)
  /in-arbeit/
    /claudecode/   (Claude Code arbeitet daran)
    /kimi/         (Cloud-LLM arbeitet daran)
    /local-qwen/   (lokales Modell arbeitet daran)
    /mensch/       (du arbeitest daran)
  /wartet-auf-freigabe/  (fertig, dein Approval ausstehend)
  /erledigt/       (abgeschlossen, archiviert)
  /abgebrochen/    (verworfen mit Begründung)

Jeder Auftrag ist eine Markdown-Datei mit standardisiertem Frontmatter:


---
auftrag-id: 2026-04-27-001
quelle: telegram | claude-chat | n8n-trigger | manuell
prioritaet: niedrig | normal | hoch | kritisch
ausfuehrer: claudecode | kimi | codex | local-qwen | mensch
brand: hochfrequenz | gfkb | immovia | viaviva
backup-vor-aktion: ja | nein
freigabe-noetig-vor-deploy: ja | nein
perfex-niederschlag: required | optional | nicht-zutreffend
---

# Auftrag: ...

## Kontext
...

## Was zu tun ist
...

## Pfade/Files betroffen
...

## Erfolgs-Kriterien
...

## Rollback-Plan
...

## Lessons-Learned (nach Abschluss)
...

Warum diese Konvention so wichtig ist

Eine gemeinsame Sprache für alle Akteure: ob du via Telegram einen Auftrag startest, oder n8n einen automatisch generiert weil ein Trigger gefeuert hat, oder du in Claude.ai etwas ausarbeitest und ablegst — alles landet im gleichen Format an gleicher Stelle.

Klare Übergaben: wenn ein Auftrag von Cloud-LLM-Drafting zu deinem Approval zu Claude-Code-Umsetzung läuft, wandert er durch die Status-Ordner. Jederzeit ist klar wo er steht.

Nachvollziehbarkeit: alle erledigten Aufträge sind im /erledigt/-Ordner archiviert. Was wurde wann von wem warum gemacht — durchsuchbar.

Lernschleife: der Lessons-Learned-Abschnitt am Ende jedes Auftrags fließt in das System-Wiki ein. Cloud-LLM analysiert Patterns, Brand-Voices werden geschärft, Workflows werden optimiert.

GFKB-Compliance: durch das perfex-niederschlag-Feld ist sichergestellt dass jeder GFKB-Auftrag einen Lieferschein-Eintrag in Perfex-GFKB bekommt.

Wie n8n das nutzt

Outline hat Webhooks. Bei neuem Auftrag in /auftrage/inbox/ triggert n8n. Liest das Frontmatter, parst den Auftragstyp, fragt dich via Telegram nach Approval (wenn freigabe-noetig-vor-deploy: ja), übergibt an den Ausführer.

Das ist keine experimentelle Architektur — das ist ein bewährtes Workflow-Pattern.

---

Teil 6 — Die Brand-Wikis als LLM-Kontext

Warum LLMs Kontext brauchen

Das alte System hatte ein Problem: Cloud-LLMs (und auch lokale) wussten zu wenig über die Marken. Bei jedem Call mussten lange Prompts mit Brand-Voice, Compliance-Regeln, Produktinfos mitgeschickt werden — was Token-Last erzeugt und trotzdem inkonsistent war.

Die Lösung: Brand-Wiki in Outline

Pro Marke ein dediziertes Wiki:


/wiki/hochfrequenz/
  brand-voice.md          (Tonalität, Worte die wir nutzen, Worte die wir vermeiden)
  produkt-claims.md       (was wir behaupten dürfen, was nicht)
  compliance-tabu.md      (HMG/UWG-Begriffe die niemals fallen)
  haeufige-fragen.md      (Q+A für wiederkehrende Themen)
  hoerbuch-content.md     (Inhaltliches Wissen aus Dartsch-Hörbuch)
  studien-zusammenfassung.md (Dartsch-Studien strukturiert)
  erfahrungsberichte/
    migraene/
      bericht-001.md
      ...
    diabetes/
      ...

/wiki/gfkb/
  brand-voice.md
  compliance-themen.md
  produktkatalog.md
  ...

/wiki/immovia/
  brand-voice.md
  objekt-template.md
  zielgruppen.md
  paraguay-kontext.md
  ...

Plus eine Knowledge-Base für allgemeine Workflows:


/wiki/system/
  workflow-templates.md
  schablonen-bibliothek.md
  api-credentials-mapping.md  (verweist auf Vaultwarden, kein Klartext)
  troubleshooting/
    ...

Wie das im Workflow funktioniert

Wenn ein n8n-Workflow einen LLM-Call braucht (z.B. Email-Personalisierung für HF), passiert folgendes:

n8n erkennt: das ist ein HF-bezogener Task
n8n lädt die HF-relevanten Wiki-Dokumente in den Prompt-Kontext (statisch, mechanisch)
Plus den spezifischen Aufgaben-Kontext (welche Email konkret)
Plus die Aufgaben-Anweisung
→ Cloud-LLM oder lokales Modell

Bei kompakten Wiki-Dokumenten reicht das in jedes Modell. Statisch, vorhersagbar, kein RAG-System nötig.

Wo es doch RAG braucht: Q+A-Wiki

Für Email-Antworten ist statisches Laden nicht genug — die Frage des Kunden muss semantisch mit gespeicherten ähnlichen Fragen abgeglichen werden. Das ist das Q+A-Wiki:


qa_entries:
  id              SERIAL PRIMARY KEY
  brand           VARCHAR (hochfrequenz | gfkb | immovia | viaviva)
  trigger_phrases TEXT[]
  embedding       vector(384)  -- pgvector-Spalte
  answer_template TEXT
  confidence_threshold FLOAT
  approved_by     VARCHAR
  approved_at     TIMESTAMP
  use_count       INTEGER
  edit_history    JSONB
  created_at      TIMESTAMP

Bei Email-Eingang:

Email wird mit qwen3:1.7b oder Cloud-Embedding-Modell zu einem Vektor konvertiert
pgvector findet nächste Nachbarn in der Q+A-Tabelle (cosine similarity)
Top-Match: similarity > 0.85 UND use_count >= 5 UND approved_by gesetzt → Auto-Send
Match 0.7-0.85 oder neu → Telegram-Approval mit Vorschlag
Match < 0.7 → Cloud-LLM generiert frischen Draft
Deine Korrektur → use_count erhöht, edit_history erweitert, Embedding ggf. aktualisiert

Das ist die Lernschleife: bei jeder Korrektur wächst die Wissensbasis pro Brand und beantwortet wiederkehrende Fragen ohne dich.

---

Teil 7 — Die LLM-Eskalations-Pyramide

Wie Modelle ausgewählt werden

Das System eskaliert von billig zu teuer in dieser Reihenfolge:

Stufe 0 — Kein LLM: Erst prüfen ob die Aufgabe deterministisch lösbar ist. Schablonen-Match? Datenbank-Lookup? Reguläre Ausdrücke? Wenn ja: kein LLM. Beispiel: "Wann kommt meine Bestellung" → DB-Lookup nach Order-ID, fertig.

Stufe 1 — qwen3:1.7b lokal: Kurze Klassifikationen, Embeddings, Routing-Entscheidungen. Beispiel: "Ist diese Email Spam, Frage oder Bestellung?"

Stufe 2 — qwen3:8b lokal: Standard-Tasks mit Brand-Voice-Personalisierung. Beispiel: "Antworte auf diese Frage im HF-Stil mit dieser Q+A-Vorlage als Basis."

Stufe 3 — qwen3:14b lokal: Tiefere Reasoning-Tasks, Long-Form-Content. Nur als Batch-Job, nicht in interaktiven Pfaden. Beispiel: "Schreibe Blogpost zu Thema X aus diesen Studien."

Stufe 4 — Cloud-LLM (Kimi K2, Codex, Claude): Wenn lokale Modelle nicht reichen (Komplexität) oder zu langsam sind (Echtzeit-Bedarf). Token-Verbrauch aus deinen Abos. Beispiel: "Generiere Sylke-Format-Script aus diesen 47 Erfahrungsberichten und Dartsch-Studien."

Eskalations-Regeln:

Stufe 4 nur wenn nötig
Stufe 3 nur als Batch-Job
Stufe 2 ist die Standard-Wahl für interaktive Tasks
Stufe 1 ist die Standard-Wahl für hochfrequente Klassifikation
Stufe 0 immer zuerst prüfen

Warum diese Pyramide

Auf eurer Hardware ist jeder LLM-Call ein Ressourcen-Aufwand. Wenn du blind Stufe 4 für alles nimmst, sind die Cloud-Quotas schnell erschöpft. Wenn du blind Stufe 3 für alles nimmst, ist das System dauerausgelastet. Die Pyramide stellt sicher dass die richtige Werkzeug-Größe für jede Aufgabe genutzt wird.

---

Teil 8 — Die Hauptanwendungsfälle

Anwendungsfall 1: Email-Eingang verarbeiten

Eine Email kommt rein. Was passiert?


Email an info@viaviva.team / info@hochfrequenz.tech / etc.
  → Mailcow empfängt
  → IMAP-Push an n8n
  → n8n-Workflow "email-handling" startet
  → qwen3:1.7b klassifiziert: Spam? Frage? Bestellung? Antwort? Auftrag?
  → Bei Spam: ignorieren, in Spam-Ordner verschieben
  → Bei Auftrag-Versuch: Auto-Reply "Aufträge nur via Telegram"
  → Bei Bestellung: Weiterleitung an Rechnungs-Verantwortlichen
  → Bei Frage:
      pgvector-Suche in Q+A-Wiki
      Match > 0.85 und vertraut: Auto-Send + Telegram-Info
      Match unsicher: Cloud-LLM Draft → Telegram-Approval
  → Eintrag in Chatwoot als Ticket
  → Eintrag in Perfex (bei GFKB-Kunden auch in Perfex-GFKB)

Vorteile gegenüber dem alten Setup:

Deterministischer (kein großer Multi-Step-Prompt mehr)
Vorhersagbarer
Bei Spam- oder Auftrag-Versuch kein LLM-Call nötig
Q+A-Wiki lernt mit jeder Korrektur

Anwendungsfall 2: Newsletter versenden

Du via Telegram: "Newsletter Donnerstag 19 Uhr an HF-Mitglieder zum Thema Vagusnerv"


Telegram → n8n-Workflow "newsletter-create"
  → Outline-Eintrag in /auftrage/inbox/ wird erstellt
  → Cloud-LLM (Kimi K2) lädt:
      - HF-Brand-Voice-Wiki
      - HF-Compliance-Tabu-Wiki
      - Bestehende Newsletter-Beispiele aus Outline
      - Dein Briefing
  → Generiert Newsletter-Draft
  → Schickt dir Draft via Telegram
  → Du: Approve / Edit / Reject
  → Bei Approve: Listmonk-Campaign erstellen
      - Empfänger-Segment: HF-Mitglieder
      - Schedule: Donnerstag 19 Uhr
  → Folgetag: n8n holt Open-Rate, Click-Rate aus Listmonk
  → Telegram-Report an dich
  → Outline /auftrage/erledigt/ Eintrag mit Lessons-Learned

Anwendungsfall 3: Schlafstudie-Tagesfrage

Cron 8:00 Uhr Asuncion-Zeit:


n8n-Cron "schlafstudie-daily-question"
  → SELECT * FROM studienteilnehmer WHERE active = true
  → Pro Teilnehmer:
      - Welcher Wochentag? Welche Frage steht heute an?
      - Telegram/WhatsApp via Bot-API
      - Mit Inline-Buttons: [😴 1] [😐 2] [🙂 3] [💤 5]
  → Antworten landen via Webhook in n8n
  → INSERT INTO studienantworten ...
  → Wenn-Dann-Logik:
      - Antwort = 1 oder 2 → Folgefrage "Was glaubst du war der Grund?"
      - Spezielle Antworten → an dich eskalieren
  → Quartalsweise: Cloud-LLM analysiert Studien-Daten, generiert Report

Hier ist NULL LLM im Standard-Workflow. Erst bei Quartals-Auswertung kommt Cloud-LLM ins Spiel.

Anwendungsfall 4: Lead-Recherche für Universitäten

Telegram: "Recherchiere 10 Lehrstühle für Biophysik in DACH"


n8n-Workflow "lead-recherche-uni"
  → Cloud-LLM (Kimi) bekommt Aufgabe + SearXNG-API
  → SearXNG-Suche: "Lehrstuhl Biophysik Universität site:de OR site:at OR site:ch"
  → Browser-Use besucht Top 30 Treffer
  → Extrahiert: Lehrstuhlname, Professor, Email, Forschungsgebiet
  → Cloud-LLM filtert: welche 10 sind am relevantesten für HF-Thema?
  → Telegram an dich: "10 Vorschläge mit Kontext, soll ich Anschreiben drafter?"
  → Bei Approval: Cloud-LLM generiert personalisiertes Anschreiben pro Lead
  → Telegram: 10 Drafts zum Review
  → Versand mit Throttling (max 3 pro Tag)
  → Tracking in Postgres + Perfex
  → Bei Antwort: Chatwoot-Ticket + Telegram-Alert an dich

Anwendungsfall 5: WordPress-Pflege via Plugin v2

Cron wöchentlich:


n8n-Workflow "wp-maintenance"
  → Plugin v2 API auf hochfrequenz.tech
  → /backup → erstellt Backup
  → /plugins → checkt verfügbare Updates
  → Pro Update:
      - Backup-ID merken
      - Update durchführen
      - /health → check ob alles ok
      - Bei Fehler: Auto-Rollback aus Backup
  → /seo/score → liefert Optimierungsvorschläge
  → /performance → Lighthouse-Scan
  → Wochenreport an dich via Telegram

---

Teil 9 — Was die HF-spezifischen Workflows sind

Hochfrequenz ist die mit Abstand komplexeste Marke und hat eigene Pipeline-Anforderungen.

HF-Content-Pipeline (Sylke + Investigativ-Format)

Das ist der größte Workflow-Komplex. Eingang: ein Krankheitsbild aus deiner Liste. Output: ein Großvideo plus Hochformat-Shorts.


Auftrag in Outline: "Erstelle Sylke-Format-Video für Migräne"
  → Cloud-LLM (Kimi/Codex) lädt:
      - HF-Brand-Voice-Wiki
      - Klassifizierte Migräne-Erfahrungsberichte aus Postgres
      - Dartsch-Studien zu Migräne aus Wiki
      - Video-Schablonen-Wiki (Sylke-Format-Struktur)
  → Generiert Script (8 Szenen, je mit Voice-Over-Text und Asset-Tags)
  → Telegram an dich: Script-Draft
  → Du editierst auf finale Version
  → Voice-Over-Aufnahme:
      - Deine Frau spricht Script ein (Audacity)
      - Auto-Editor bereinigt Stille
      - Pro Szene ein Audio-File
  → Asset-Generation:
      - Servier-Medical-Art-SVGs aus lokaler Library
      - Linien-Skizzen via lokaler Stable-Diffusion + HF-Style-LoRA
      - Stock-Sound aus Freesound
  → Remotion-Pipeline:
      - JSON-Konfig mit Szenen-Komponenten und Props
      - Render zu MP4
  → Telegram an dich: Vorschau-Video
  → Du: Approve / Re-Render einzelne Szenen
  → Bei Approve:
      - YouTube-Upload via Data-API mit Title, Description, Timestamps
      - 4 Hochformat-Shorts extrahieren (FFmpeg-Crop + Untertitel)
      - Cross-Posting via Mixpost
      - Eintrag in Outline /erledigt/ mit Lessons-Learned
  → Plus: Investigativ-Pendant zum gleichen Krankheitsbild als Folge-Format

HF-Member-App (HF-Universum)

Member-App auf SvelteKit unter app.hochfrequenz.tech:

Login via SuperTokens
Personalisiertes Dashboard
Hörbuch-Streaming mit HLS und Token-Auth (ersetzt Bookfunnel)
Schlafstudien-Erfassung als visuelle Variante zum WhatsApp-Workflow
Reading-Progress, Bookmarks, Lifetime-Listening-Stats
Crosslink-Tracking ("Audio X gehört → Tesla-2GO-Kauf danach")
Petition-Unterzeichnung integriert

Diese App wird der zentrale Conversion-Punkt für HF. Alle Wege führen dorthin.

Schlafstudie-Workflow (siehe oben)

Der WhatsApp/Telegram-getriebene Workflow ist die Erstaufnahme. Member in der App sehen das visuell mit Verlaufs-Anzeige. Quartalsweise generiert Cloud-LLM einen Studien-Report aus den anonymisierten aggregierten Daten.

---

Teil 10 — Die GFKB-Integration als Sonderfall

GFKB-Workflows haben strukturell eine zusätzliche Anforderung: alles muss seine Spuren in Perfex-GFKB hinterlassen, nicht nur in Perfex-Viaviva.

Beispiel: Newsletter für GFKB


Telegram: "Newsletter zu Krisenvorsorge-Update an alle GFKB-Mitglieder"
  → n8n-Workflow "gfkb-newsletter"
  → Cloud-LLM lädt GFKB-Brand-Voice + GFKB-Compliance-Wiki
  → Draft, Approval-Loop
  → Versand via Listmonk auf Hostinger (mit @gfkb.org-Absender via Mailcow)
  → Nach Versand:
      - Perfex-Viaviva: Eintrag "GFKB-Newsletter ausgeführt am X" (kurz)
      - Perfex-GFKB API: vollständiger Newsletter-Eintrag mit:
        - HTML-Inhalt als Anhang
        - Empfängerliste
        - Versandzeitpunkt
        - Open/Click-Daten als Nachtrag

Bei Trennung der Partnerschaft kann GFKB in Perfex-GFKB die komplette Newsletter-Historie sehen, die Inhalte herunterladen, und nahtlos das Perfex-Newsletter-Modul oder einen anderen Anbieter weiternutzen.

Datenfluss-Regel für GFKB

Master-Daten leben immer auf All-Inkl in Perfex-GFKB. Hostinger arbeitet mit ephemeren Verarbeitungs-Kopien.

Konkret:

Mitglieder-Daten: ziehen wir bei Bedarf via Perfex-API, verarbeiten, schreiben Ergebnisse zurück, löschen lokale Kopien nach Workflow-Ende
Email-Versand für GFKB: über Mailcow auf Hostinger, aber Subscriber-Liste wird live aus Perfex-GFKB gepullt (oder aus einem Spiegel der bei jedem Versand neu synchronisiert wird)
Studien-Antworten (falls GFKB Studien fährt): direkt als Perfex-GFKB-Ticket-Comment

AVV (Auftragsverarbeitungsvertrag)

Bevor produktive GFKB-Daten auf Hostinger verarbeitet werden, brauchen wir einen schriftlichen AVV zwischen dir und GFKB. Das ist DSGVO-Pflicht und keine Formalität.

---

Teil 11 — Die Bauphasen

Die Reihenfolge ist nicht zwingend linear, aber Phase A ist Voraussetzung für alle weiteren.

Phase A — Stabilisierung und Migration

GoDaddy-Migration zu Hostinger (eigenes Auftragsdokument)
Email-Migration via Mailcow neu auf Hostinger
WP-Sites einzeln migrieren in Docker-Container
Test unter *.ultimo.hochfrequenz.tech Subdomains
DNS-Switches sequenziell
Agent-System pausiert lassen während Migration läuft

Phase B — Stack-Foundation auf Hostinger

Outline neu aufgesetzt mit Brand-Wikis
n8n bleibt aber wird gereinigt (alte Workflows deaktiviert/entfernt)
Postgres mit pgvector aktiviert
Vaultwarden für Secret-Management
Uptime-Kuma für Monitoring
Chatwoot installiert
Listmonk konfiguriert für Multi-Brand-Versand
SearXNG aufgesetzt
Browser-Use bereitgestellt

Phase C — Plugin v2 und erste WP-Automation

Plugin v2 entwickelt mit Tracking-Modul, SEO-Modul, Operations-API, Backup-Layer
Auf hochfrequenz.tech (nach Migration) deployt
Wöchentlicher WP-Wartungs-Workflow in n8n

Phase D — Astro-Komponenten-Library

Multi-Brand-Komponenten für statische Sites
HF-Public-Site auf Astro migriert
Immovia neu in Astro aufgebaut
Viaviva-Marketingseite

Phase E — Member-App (HF-Universum)

SvelteKit-App auf app.hochfrequenz.tech
SuperTokens-Auth
HLS-Audio-Streaming für Hörbücher
Schlafstudien-Dashboard
Reading-Progress, Bookmarks
Bookfunnel komplett ersetzt

Phase F — Video-Pipeline

Remotion-Komponenten-Library für Sylke-Format
Voice-Cloning-Setup mit deiner Frau (Deutsch)
Erfahrungsberichte-Klassifikations-Pipeline
Pilot-Video manuell, dann Automatisierung
ElevenLabs Pro für Spanisch-Voice

Phase G — GFKB-Integration

Cross-Server-Auth-Sync
Perfex-GFKB-API-Bridges
Werkstattbuch-vs-Lieferschein-Disziplin in n8n-Workflows
Member-App-Instanz für GFKB als zweiter Tenant

Phase H — Lead-Recherche und Marketing-Skalierung

Universitäts-Outreach-Pipeline
Listening + Drafting für Foren/Reddit (manuelle Posts mit Browser-Use-Login)
Cross-Plattform-Distribution (Mixpost)

---

Teil 12 — Was bewusst NICHT gebaut wird

Damit es im Konzept klar bleibt:

Vollautomatische Forenkommentare oder Reddit-Outreach. Bot-Detection ist heute gut, Account-Bans sind real, Brand-Schaden ist möglich. Stattdessen: Listening (was wird wo geschrieben) + manuelles Drafting + manuelle Posts mit deinem Account. Browser-Use unterstützt beim Login, postet nicht autonom.

Echtzeit-Telefonbot. Inferenz-Latenz auf CPU-only zu hoch. Wenn Telefon-Support nötig: Mensch.

Live-Chat in der Member-App. Wartungsaufwand zu hoch für eine Person. Stattdessen: asynchroner Email-Support mit kurzer SLA und Q+A-Wiki-System.

Eigener WordPress-Pagebuilder. Wäre ein eigenes Software-Projekt mit hohem Wartungsaufwand. Stattdessen: Astro für neue Sites, Plugin v2 für existierende WP-Sites die nicht anders zu betreiben sind (GFKB).

Vollautomatisierte App-Store-Apps. Web-App als Standard. Native App nur wenn sich zeigt dass sie wirklich genutzt wird.

14B-Modell in interaktiven Workflows. Zu langsam auf CPU. Nur als Batch-Job für Spezialfälle.

---

Teil 13 — Eskalations-Pfade und Notfall-Verhalten

Was passiert wenn Cloud-LLM-Quota erschöpft ist

n8n-Workflow versucht Cloud-LLM-Call → Fehler (Rate-Limit, Quota erschöpft) → Fallback auf nächst-niedrigere Stufe (Cloud-Alternative oder lokales qwen3:14b als Batch) → Bei Long-Form-Tasks: Auftrag in /auftrage/wartet-auf-mensch/ mit Hinweis "Cloud-Quota erschöpft, manuelle Bearbeitung empfohlen" → Telegram-Info an dich

Was passiert wenn lokales Modell hängt

Uptime-Kuma erkennt: Ollama-Container nicht responsive → Telegram-Alert an dich → Auto-Heal-Versuch: Container restart → Bei Erfolg: Hinweis "auto-healed", System läuft weiter → Bei Fehlschlag: Eskalation, manuelle Investigation nötig

Was passiert wenn ein Workflow falsche Antworten produziert

Du erkennst es entweder:

in Telegram-Approval-Loop (vor Versand)
nach Versand durch Kunden-Beschwerde

Bei letzterem: Workflow wird in /auftrage/inbox/ mit Tag "fehlerhaft" angelegt, du arbeitest mit Claude Code an Korrektur, Q+A-Wiki-Eintrag wird in confidence_threshold heraufgesetzt sodass dieser Eintrag nicht mehr auto-genutzt wird.

Was passiert wenn das System unter Last zusammenbricht

Uptime-Kuma erkennt: zu viele Container-Failures, Server-Load-Average hoch → n8n-Workflow "emergency-throttle" startet → Pausiert nicht-kritische Cron-Jobs → Reduziert Worker-Count → Telegram-Alert: "System unter Last, throttled" → Du entscheidest manuell: weiter throttlen oder skalieren

---

Teil 14 — Was noch ungeklärt ist

Diese Punkte muss du beantworten bevor wir mit der Umsetzung weitergehen können:

1. AVV mit GFKB: ist der schon gemacht oder muss er noch erstellt werden? Ich kann eine Vorlage entwerfen aber das geht in die GFKB-Integration-Phase.

2. App-Store-Plan für Member-App: Web-App als Standard, aber ob (und wann) der Schritt zur nativen App erfolgen soll, hat Implikationen auf die Architektur (Capacitor? Tauri? PWA?).

3. Voice-Recording-Setup deiner Frau: Mikrofon-Auswahl, Aufnahme-Disziplin, ihre tatsächliche Bereitschaft. Hat Auswirkung auf Phase F.

4. Hochfrequenz-Compliance-Anwalt: vor produktiver Video-Veröffentlichung sollte einmal ein Fachanwalt für Medizinwerberecht das Format prüfen. Ist das eingeplant?

5. Petitions-Plattform: echte Petition oder eigene Lösung in der Member-App? OpenPetition.de? Eigene Implementation?

6. Studien-Aggregation und Veröffentlichung: wie sollen die Schlafstudien-Daten am Ende publiziert werden? Eigenes Whitepaper? Hörbuch-Material? Wissenschaftliche Veröffentlichung?

7. Hardware-Upgrade-Schwelle: klare Trigger definieren ab welcher Member-Last oder Video-Pipeline-Aktivität ein GPU- oder Server-Upgrade gemacht wird.

8. Backup-Strategie für Production: in der jetzigen Phase reicht "manuell + VPS-Snapshot". Im Produktiv-Betrieb braucht es automatisierte tägliche Backups mit Off-Site-Sicherung.

---

Teil 15 — Wie dieses Dokument als Basis dient

Wenn wir dieses Konzept als finalisiert betrachten, geschieht folgendes:

1. Dokument wird in Outline abgelegt unter /wiki/system/architektur-foundation.md. Das ist die zentrale Wahrheit gegen die alle künftigen Entscheidungen geprüft werden.

2. Pro Phase wird ein konkretes Auftragsdokument für Claude Code erstellt das auf dieses Foundation-Dokument verweist und die spezifischen Schritte für die Phase definiert.

3. Bei Bauarbeiten prüft Claude Code immer: "passt das was ich baue zur Foundation?" Wenn nein, Rückfrage an dich.

4. Lessons-Learned aus jeder Phase fließen zurück in das Foundation-Dokument als Updates.

---

Schluss-Bemerkungen

Das hier ist die zweite große Iteration eines Konzepts das aus monatelanger Arbeit gewachsen ist. Die ehrlichen Stärken:

Es ist konkret und auf eurer realen Hardware umsetzbar
Es respektiert die Eigentums-Trennung mit GFKB
Es priorisiert Stabilität und Vorhersagbarkeit über LLM-Magie
Es lässt Raum für Wachstum (Member-App, Video-Pipeline, Lead-Recherche)
Es vermeidet bekannte Failure-Modes des alten Stacks

Die ehrlichen Schwächen:

Cloud-LLM-Abhängigkeit bei Quota-Engpässen ist real
Compliance-Risiko bei HF muss durch Anwalt abgesichert werden
Komplexität wächst mit jeder Phase und braucht Disziplin

Wenn du beim Lesen Punkte siehst die anders entschieden werden sollen, oder die unklar sind, oder die fehlen — markiere sie. Wir arbeiten dann nach.

Wenn das Konzept passt, fangen wir mit Auftrag #001 (System pausieren + Backup) an, danach folgt die GoDaddy-Migration als großer Block, und dann kommt Phase B (Stack-Foundation) als erstes echtes Bau-Projekt.

---

Ende des Konzept-Dokuments. Bitte zur Auswertung lesen.