J.A.R.V.I.S. : fabriquer un assistant IA local

J.A.R.V.I.S.PythonIA locale

L'idée

Les assistants IA cloud sont puissants mais ont un problème fondamental : tes données passent par des serveurs tiers. J.A.R.V.I.S. est né d'une volonté d'avoir un assistant aussi capable que ChatGPT, mais tournant entièrement sur ma machine.

L'architecture

Ollama — Sert les modèles LLM en local (Mistral, Llama, Phi). Zéro appel réseau pour l'inférence.
FastAPI — API REST asynchrone qui orchestre les conversations, RAG et plugins.
SQLite FTS5 — Database locale avec recherche full-text pour le contexte des documents.
Web Dashboard — Interface temps réel via WebSocket pour monitorer les conversations et les métrique.

DIY RAG

J.A.R.V.I.S. peut ingérer des documents (PDF, markdown, code) et les chunker en embeddings stockés en local. Quand tu poses une question, elle cherche d'abord dans ta base de connaissances avant de répondre. Tout reste sur ton disque.

Les défis

Le principal défi c'est la vitesse. Un LLM 7B en local sur un MacBook Pro génère ~30 tokens/seconde. C'est utilisable mais loin des ~100 t/s de GPT-4 via l'API. Le tradeoff privacité vs vitesse est réel.

Phase 2

Prochaine étape : les plugins. J.A.R.V.I.S. sera able de contrôler les apps, lire les emails, et interagir avec les APIs externes — tout en gardant le reasoning local.

← Article précédent

🧰La boîte à outils du créateur d'apps (sans savoir coder)

Article suivant →

Le dico tech pour Moldus — Partie 2 : next level🧪

Voir tous les articles