IA & data
Agents IA dans ton équipe produit : ce qui marche, ce qui ne marche pas
Pas un n-ième article sur 'l'IA va remplacer les devs'. Notre vraie expérience d'agents IA en production sur des produits clients en 2026.

Tout le monde parle d'agents IA en 2026. Peu de gens en ont vraiment mis en production. La distance entre la démo et le produit qui sert tous les jours est immense.
Voici ce qu'on a appris en intégrant des agents IA sur 5 produits clients depuis 2024. Ce qui fonctionne, ce qui se vautre.
D'abord, c'est quoi un agent IA ?
Pour ne pas tourner autour du pot : un agent IA, c'est un LLM qui peut utiliser des outils (lire une DB, appeler une API, générer un fichier) pour atteindre un objectif multi-étapes.
C'est différent d'un chatbot — qui se contente de générer du texte — et différent d'un workflow — qui suit des étapes pré-définies. Un agent décide lui-même de la séquence d'actions.
Exemples concrets :
- Agent commercial : qualifie un lead entrant, crée la fiche dans le CRM, envoie un mail personnalisé, planifie une relance
- Agent juridique : extrait les clauses d'un contrat, compare avec un référentiel, génère un mémo de risques
- Agent dev : reçoit un ticket, identifie le code concerné, propose un patch, ouvre une PR
L'attractivité est évidente. Le piège aussi.
Ce qui marche en 2026 (vraiment)
Agents verticaux sur tâches répétitives bien spécifiées. Plus c'est étroit, plus ça marche. Un agent qui « gère le support client » est trop large. Un agent qui « classifie un ticket entrant en 1 des 12 catégories prédéfinies et propose une réponse parmi 30 templates » fonctionne très bien.
Agents avec accès limité aux outils. 2-5 outils max. Au-delà, l'agent se perd, choisit le mauvais outil, ou enchaîne 15 appels avant de répondre. Restreindre l'environnement = augmenter la fiabilité.
Agents en mode « copilot » avec validation humaine. L'agent prépare, l'humain valide. Pour 80 % des cas business sensibles (envoi de mail externe, transaction financière, modification de DB), c'est le bon mode. Pleine autonomie réservée aux cas à faible risque.
Stack qui marche : Claude 4 Sonnet + LangGraph (ou Mastra) + observabilité Langfuse. C'est notre combo par défaut.
Ce qui ne marche pas (encore)
Agents 100% autonomes sur tâches critiques. En 2026, le taux d'erreur reste trop élevé pour laisser un agent décider seul sur du financier ou du juridique sans supervision. Compte 1-3 % de décisions douteuses, c'est inacceptable sur ces verticaux.
Agents multi-agents complexes. L'idée d'orchestrer 5 agents qui se parlent (agent commercial → agent rédacteur → agent QA → …) fait rêver. En prod, ça tousse. Trop de surface d'échec, trop dur à débugger. Notre conseil : 1 agent monolithique bien conçu > 5 agents qui collaborent mal.
Agents qui doivent comprendre du contexte fin métier sans RAG sérieux. Un agent sans accès propre à ta base de connaissances métier hallucine 30-50 % du temps. Le RAG bien fait est non-négociable.
Comment évaluer si un agent IA est pertinent pour ta boîte
Trois questions filtre avant d'investir :
1. Combien de temps humain est consommé sur la tâche ? Si la réponse est < 5 heures/semaine cumulées, n'investis pas. Le coût de build d'un agent (15-50 k€) ne sera jamais rentabilisé.
2. Est-ce que la tâche est bien définie ? Tu peux écrire en 10 lignes les inputs, outputs et critères de succès ? Si non, l'agent ne saura pas quoi faire.
3. Est-ce qu'une erreur de l'agent coûte cher ? Si oui (envoi d'email externe, paiement, contrat), prévois un mode validation humaine. Sinon, full auto possible.
Si les 3 réponses sont positives, tu as un cas d'usage. Sinon, attends.
Notre méthode pour intégrer un agent IA
Étape 1 — Cadrage du périmètre (1 semaine)
On formalise :
- L'objectif unique de l'agent (1 phrase)
- Les inputs disponibles
- Les outputs attendus
- Les outils auxquels l'agent peut accéder (5 max)
- Les modes : full auto vs human-in-the-loop
- Le set d'évaluation (50-100 cas avec input + output attendu)
Étape 2 — Build itératif (4-8 semaines)
Cycles courts. Stack par défaut : Claude 4 Sonnet + LangGraph + Langfuse pour l'observabilité.
À chaque cycle on mesure :
- Taux de réussite sur le set d'éval
- Coût d'inférence moyen par exécution
- Latence
Étape 3 — Production avec garde-fous (1-2 semaines)
Avant le go-live :
- Validation humaine activée par défaut sur les actions à fort impact
- Logs complets via Langfuse (pour pouvoir audit chaque exécution)
- Alertes : drift qualité, dépassement budget, taux d'erreur
- Plan rollback documenté
Ce qu'on a livré chez Zetos
Trois exemples concrets :
Moriarty — agent qui croise un profil entreprise avec 2 000+ aides publiques françaises et propose les éligibles. Stack : Claude 4 Sonnet + RAG custom. Mode validation humaine sur les recommandations finales.
CS Consulting — intégration d'un agent dans la plateforme métier d'un cabinet : classification automatique de tickets, génération de comptes-rendus. Mode copilot, l'humain valide avant envoi.
Sur ces 2 cas, le ROI s'est montré dès le 3e mois en prod : 60-80 % de temps gagné sur les tâches concernées.
Combien ça coûte
| Format | Build | Coût d'inférence/mois | Délai |
|---|---|---|---|
| Agent simple sur 1 cas d'usage | 15-30 k€ | 100-500 € | 4-6 semaines |
| Agent vertical métier | 30-80 k€ | 500-2 000 € | 8-12 semaines |
| Agent intégré full écosystème | 80-200 k€ | 2 000-8 000 € | 4-6 mois |
Le coût d'inférence est très variable selon le volume d'utilisation et le modèle choisi. On dimensionne ça au cadrage.
Bottom line
Les agents IA en 2026, c'est une vraie techno qui marche si tu :
- Restreins le périmètre (1 cas d'usage à la fois)
- Choisis 5 outils max
- Gardes l'humain dans la boucle sur les actions à risque
- Mesures le ROI avec un set d'éval avant et un coût d'inférence après
C'est une mauvaise idée si tu :
- Veux remplacer une équipe entière par 1 agent (tu vas droit au mur)
- N'as pas de mesure objective de réussite
- Vises des tâches mal définies
- N'as personne en interne pour gérer les exceptions
Si tu penses qu'un agent peut servir ta boîte, on fait des cadrages d'intégration IA en 1-2 semaines. À la fin tu sais quel agent construire et combien il coûtera vraiment en prod.


