WEVAL Technology Platform

💾 Disque S204

Utilisé…

Disponible…

Pct…

🧠 Mémoire RAM

Utilisée…

Disponible…

Pct…

⚡ Charge CPU

1 min…

5 min…

15 min…

📊 Quick Ask 24h

Calls…

RAG used…

p50 latency…

🦙 Ollama LOCAL (Modèles Souverains S204)

Chargement…

🔗 Cascade Quick Ask v3.13

Chargement…

🌍 Sovereign API + Remote

Engine…

Providers actifs…

Port 4000…

Kaggle Remote…

URL…

Models GPU…

💡 Si Kaggle DOWN : reset le tunnel cloudflared sur ton notebook Kaggle, puis update OLLAMA_REMOTE_URL dans /etc/weval/ollama-remote.env

📚 RAG SMART (Doctrines + Vault)

Wiki MD docs…

Obsidian vault…

TF-IDF index…

Index âge…

🗜️ Compression de Contexte (Conversations longues)

Colle ici une conversation longue. Le brain va la résumer en gardant: décisions, faits techniques, actions, états. Économie tokens 60-90%.

🧬 Composition WEVAL Brain v6

WEVAL BRAIN v6 = WEVIA Master + Ollama Sovereign + RAG SMART + Compression

┌─ COUCHE 1 — WEVIA MASTER (orchestrator) ─────────────────────────────┐
│  /api/wevia-master-api.php — 2820+ intents, multi-agent              │
│  Triggers: NL chat, qa, demande IA, status, etc.                     │
└──────────────────────────────────────────────────────────────────────┘
                            ↓
┌─ COUCHE 2 — QUICK ASK CASCADE (RAG-aware Q&A) ───────────────────────┐
│  /api/wevia-quick-ask.php v3.13 — 5+ providers cascade               │
│  - Cerebras qwen-3-235b (primary, 248ms)                             │
│  - Mistral small-latest (fast, 500ms)                                │
│  - Cohere command-r-plus (safety, 2s)                                │
│  - NVIDIA NIM Llama 3.3 70b (cloud)                                  │
│  - GitHub Models Llama 3.1 8b (cloud)                                │
│  - tinydolphin LOCAL (uncensored, 100% sovereign)                    │
│  - llama3.2:1b LOCAL (uncensored, 100% sovereign)                    │
└──────────────────────────────────────────────────────────────────────┘
                            ↓
┌─ COUCHE 3 — RAG SMART (knowledge retrieval) ─────────────────────────┐
│  - 200+ wiki doctrines + 500+ obsidian vault                         │
│  - TF-IDF index 756 docs, cosine fallback                            │
│  - Tier1/2/3 scoring + filename PREFIX +500                          │
│  - Cache 5min auto-invalidate sur mtime                              │
│  - Citations validation (cited_sources/invalid)                      │
└──────────────────────────────────────────────────────────────────────┘
                            ↓
┌─ COUCHE 4 — COMPRESSION CONTEXTE (économie tokens) ──────────────────┐
│  /api/weval-brain-v6-api.php?action=compress                         │
│  - Résume conversations longues via Mistral (60-90% reduction)       │
│  - Préserve décisions + faits techniques + actions + états           │
│  - Élimine politesses, redondances, debug, essais ratés              │
└──────────────────────────────────────────────────────────────────────┘
                            ↓
┌─ COUCHE 5 — OLLAMA UNCENSORED (souveraineté absolue) ────────────────┐
│  - tinydolphin:latest (637 MB, 1B params, Q4_0)                      │
│  - llama3.2:1b (1.3 GB, 1.2B params, Q8_0)                           │
│  - dolphin-llama3:8b (4.7 GB, 8B params, Q4_0) [slow CPU]            │
│  - all-minilm:latest (46 MB, 23M, embeddings)                        │
│  - Endpoint: http://127.0.0.1:11434/v1/chat/completions              │
│  - 0€ cost, 0 cloud dependency, censorship-free                      │
└──────────────────────────────────────────────────────────────────────┘
                            ↓
┌─ COUCHE 6 — REMOTE GPU (vitesse + qualité) ──────────────────────────┐
│  Kaggle Cloudflare Tunnel → Ollama GPU T4 30h/sem GRATUIT            │
│  Setup: notebook Kaggle + cloudflared + URL → /etc/weval/ollama-remote.env
│  ⚠️ Actuellement DOWN — restart tunnel pour réactiver                 │
└──────────────────────────────────────────────────────────────────────┘

ENDPOINTS:
  📊 /api/weval-brain-v6-api.php?action=state         — état complet
  🧪 /api/weval-brain-v6-api.php?action=test_model    — test modèle
  🗜️ /api/weval-brain-v6-api.php?action=compress      — compression
  💬 /api/wevia-quick-ask.php                          — Q&A cascade
  🌍 /api/wevia-master-api.php                         — NL orchestrator
  📈 /api/quick-ask-stats.php                          — analytics 24h
  💾 /api/disk-monitor.php                             — disk monitoring