🧠 WEVAL Brain v6 β€” Cerveau Souverain

Composition WEVIA Master + Ollama Uncensored + RAG SMART + Compression Contexte — D14 SOUVERAINETÉ ABSOLUE
⏳ ModΓ¨les… ⏳ Cascade… ⏳ RAG… ⏳ Load… v6.0 Β· D14

πŸ’Ύ Disque S204

Utilisé…
Disponible…
Pct…

🧠 Mémoire RAM

UtilisΓ©e…
Disponible…
Pct…

⚑ Charge CPU

1 min…
5 min…
15 min…

πŸ“Š Quick Ask 24h

Calls…
RAG used…
p50 latency…

πŸ¦™ Ollama LOCAL (ModΓ¨les Souverains S204)

Chargement…

πŸ”— Cascade Quick Ask v3.13

Chargement…

🌍 Sovereign API + Remote

Engine…
Providers actifs…
Port 4000…

Kaggle Remote…
URL…
Models GPU…
πŸ’‘ Si Kaggle DOWN : reset le tunnel cloudflared sur ton notebook Kaggle, puis update OLLAMA_REMOTE_URL dans /etc/weval/ollama-remote.env

πŸ“š RAG SMART (Doctrines + Vault)

Wiki MD docs…
Obsidian vault…
TF-IDF index…
Index Γ’ge…

πŸ—œοΈ Compression de Contexte (Conversations longues)

Colle ici une conversation longue. Le brain va la rΓ©sumer en gardant: dΓ©cisions, faits techniques, actions, Γ©tats. Γ‰conomie tokens 60-90%.

🧬 Composition WEVAL Brain v6

WEVAL BRAIN v6 = WEVIA Master + Ollama Sovereign + RAG SMART + Compression

β”Œβ”€ COUCHE 1 β€” WEVIA MASTER (orchestrator) ─────────────────────────────┐
β”‚  /api/wevia-master-api.php β€” 2820+ intents, multi-agent              β”‚
β”‚  Triggers: NL chat, qa, demande IA, status, etc.                     β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜
                            ↓
β”Œβ”€ COUCHE 2 β€” QUICK ASK CASCADE (RAG-aware Q&A) ───────────────────────┐
β”‚  /api/wevia-quick-ask.php v3.13 β€” 5+ providers cascade               β”‚
β”‚  - Cerebras qwen-3-235b (primary, 248ms)                             β”‚
β”‚  - Mistral small-latest (fast, 500ms)                                β”‚
β”‚  - Cohere command-r-plus (safety, 2s)                                β”‚
β”‚  - NVIDIA NIM Llama 3.3 70b (cloud)                                  β”‚
β”‚  - GitHub Models Llama 3.1 8b (cloud)                                β”‚
β”‚  - tinydolphin LOCAL (uncensored, 100% sovereign)                    β”‚
β”‚  - llama3.2:1b LOCAL (uncensored, 100% sovereign)                    β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜
                            ↓
β”Œβ”€ COUCHE 3 β€” RAG SMART (knowledge retrieval) ─────────────────────────┐
β”‚  - 200+ wiki doctrines + 500+ obsidian vault                         β”‚
β”‚  - TF-IDF index 756 docs, cosine fallback                            β”‚
β”‚  - Tier1/2/3 scoring + filename PREFIX +500                          β”‚
β”‚  - Cache 5min auto-invalidate sur mtime                              β”‚
β”‚  - Citations validation (cited_sources/invalid)                      β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜
                            ↓
β”Œβ”€ COUCHE 4 β€” COMPRESSION CONTEXTE (Γ©conomie tokens) ──────────────────┐
β”‚  /api/weval-brain-v6-api.php?action=compress                         β”‚
β”‚  - RΓ©sume conversations longues via Mistral (60-90% reduction)       β”‚
β”‚  - PrΓ©serve dΓ©cisions + faits techniques + actions + Γ©tats           β”‚
β”‚  - Γ‰limine politesses, redondances, debug, essais ratΓ©s              β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜
                            ↓
β”Œβ”€ COUCHE 5 β€” OLLAMA UNCENSORED (souverainetΓ© absolue) ────────────────┐
β”‚  - tinydolphin:latest (637 MB, 1B params, Q4_0)                      β”‚
β”‚  - llama3.2:1b (1.3 GB, 1.2B params, Q8_0)                           β”‚
β”‚  - dolphin-llama3:8b (4.7 GB, 8B params, Q4_0) [slow CPU]            β”‚
β”‚  - all-minilm:latest (46 MB, 23M, embeddings)                        β”‚
β”‚  - Endpoint: http://127.0.0.1:11434/v1/chat/completions              β”‚
β”‚  - 0€ cost, 0 cloud dependency, censorship-free                      β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜
                            ↓
β”Œβ”€ COUCHE 6 β€” REMOTE GPU (vitesse + qualitΓ©) ──────────────────────────┐
β”‚  Kaggle Cloudflare Tunnel β†’ Ollama GPU T4 30h/sem GRATUIT            β”‚
β”‚  Setup: notebook Kaggle + cloudflared + URL β†’ /etc/weval/ollama-remote.env
β”‚  ⚠️ Actuellement DOWN β€” restart tunnel pour rΓ©activer                 β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜

ENDPOINTS:
  πŸ“Š /api/weval-brain-v6-api.php?action=state         β€” Γ©tat complet
  πŸ§ͺ /api/weval-brain-v6-api.php?action=test_model    β€” test modΓ¨le
  πŸ—œοΈ /api/weval-brain-v6-api.php?action=compress      β€” compression
  πŸ’¬ /api/wevia-quick-ask.php                          β€” Q&A cascade
  🌍 /api/wevia-master-api.php                         β€” NL orchestrator
  πŸ“ˆ /api/quick-ask-stats.php                          β€” analytics 24h
  πŸ’Ύ /api/disk-monitor.php                             β€” disk monitoring