Des compétences techniques, pas des buzzwords.
L'IA appliquée est un domaine où l'écart entre "savoir appeler une API" et "savoir construire un système fiable" est considérable. Voici ce que nous maîtrisons concrètement.
Un agent n'est pas un chatbot avec un bon prompt. C'est un système capable de raisonner sur un objectif, de sélectionner et d'exécuter des outils (fonctions, APIs, bases de données), de gérer des états intermédiaires et de s'auto-corriger en cas d'échec. Nous concevons des agents avec des boucles de raisonnement structurées (ReAct, plan-and-execute), des schémas de tools bien définis et des mécanismes de fallback explicites.
Certains problèmes nécessitent plusieurs agents spécialisés travaillant en coordination : un orchestrateur qui décompose une tâche, des sous-agents qui exécutent en parallèle, un agent de validation qui contrôle les sorties. Nous concevons ces pipelines en tenant compte des points de synchronisation, de la gestion des erreurs distribuées et du coût total d'exécution.
Un système IA en production génère des coûts récurrents qui peuvent rapidement dépasser le budget initial si l'architecture n'est pas pensée dès le départ. Nous travaillons systématiquement sur : la compression et la structuration des prompts, le prompt caching (Anthropic, OpenAI), le routage intelligent entre modèles selon la complexité, la mise en cache des résultats déterministes, et le chunking optimal des documents longs.
Pour les contextes où la confidentialité est critique (données RH, financières, client sensibles), nous déployons des modèles locaux via Ollama ou des infrastructures dédiées (Mistral, LLaMA, Phi, Qwen). L'inférence locale élimine le coût par token, supprime la latence réseau et garantit que les données ne quittent pas l'infrastructure du client.
Nous concevons les pipelines complets : découpage et indexation des documents, choix du modèle d'embeddings, sélection et configuration de la base vectorielle, stratégie de retrieval (dense, hybride, reranking), et intégration dans le contexte du modèle avec gestion des limites de fenêtre.
Nous utilisons systématiquement les modes de sortie structurée (JSON Schema, function calling, mode strict) pour garantir que les sorties du modèle sont directement exploitables par le reste de la chaîne, sans parsing fragile ni post-traitement approximatif.
Un prompt de production n'est pas une phrase bien tournée. C'est un contrat entre l'application et le modèle : rôle, contraintes, format de sortie, exemples few-shot, gestion des cas limites, instructions de refus. Nous rédigeons des prompts versionnés, testés sur des jeux de données représentatifs, avec des métriques de régression pour détecter les dégradations lors des mises à jour de modèle.
Un système IA sans harness d'évaluation n'est pas un système en production — c'est un prototype sous surveillance manuelle. Nous concevons et construisons ces infrastructures de bout en bout : golden sets, pipelines d'évaluation automatisée, LLM-as-judge calibré sur annotations humaines, intégration CI/CD, observabilité et A/B testing de prompts et de modèles.
Livrables types.
Agent connecté à vos outils (CRM, ERP, BDD, APIs) capable d'exécuter des workflows complets
Moteur de recherche sémantique et Q&A sur vos documents internes ou bases de connaissance
Orchestration de plusieurs agents spécialisés pour des tâches complexes ou à fort volume
Ajout d'une couche IA dans une application Angular / Node / C# existante
Infrastructure d'inférence locale pour les contextes à données sensibles
Infrastructure complète : golden sets, pipeline de régression, LLM-as-judge, CI/CD et observabilité
Réduction des coûts, amélioration de la fiabilité, refactoring d'une architecture qui ne tient pas en charge