IA & data

Agents IA dans ton équipe produit : ce qui marche, ce qui ne marche pas

Pas un n-ième article sur 'l'IA va remplacer les devs'. Notre vraie expérience d'agents IA en production sur des produits clients en 2026.

Théo Pascard· Co-fondateur, Zetos·26 septembre 2025·7 min

Tout le monde parle d'agents IA en 2026. Peu de gens en ont vraiment mis en production. La distance entre la démo et le produit qui sert tous les jours est immense.

Voici ce qu'on a appris en intégrant des agents IA sur 5 produits clients depuis 2024. Ce qui fonctionne, ce qui se vautre.

D'abord, c'est quoi un agent IA ?

Pour ne pas tourner autour du pot : un agent IA, c'est un LLM qui peut utiliser des outils (lire une DB, appeler une API, générer un fichier) pour atteindre un objectif multi-étapes.

C'est différent d'un chatbot — qui se contente de générer du texte — et différent d'un workflow — qui suit des étapes pré-définies. Un agent décide lui-même de la séquence d'actions.

Exemples concrets :

Agent commercial : qualifie un lead entrant, crée la fiche dans le CRM, envoie un mail personnalisé, planifie une relance
Agent juridique : extrait les clauses d'un contrat, compare avec un référentiel, génère un mémo de risques
Agent dev : reçoit un ticket, identifie le code concerné, propose un patch, ouvre une PR

L'attractivité est évidente. Le piège aussi.

Ce qui marche en 2026 (vraiment)

Agents verticaux sur tâches répétitives bien spécifiées. Plus c'est étroit, plus ça marche. Un agent qui « gère le support client » est trop large. Un agent qui « classifie un ticket entrant en 1 des 12 catégories prédéfinies et propose une réponse parmi 30 templates » fonctionne très bien.

Agents avec accès limité aux outils. 2-5 outils max. Au-delà, l'agent se perd, choisit le mauvais outil, ou enchaîne 15 appels avant de répondre. Restreindre l'environnement = augmenter la fiabilité.

Agents en mode « copilot » avec validation humaine. L'agent prépare, l'humain valide. Pour 80 % des cas business sensibles (envoi de mail externe, transaction financière, modification de DB), c'est le bon mode. Pleine autonomie réservée aux cas à faible risque.

Stack qui marche : Claude 4 Sonnet + LangGraph (ou Mastra) + observabilité Langfuse. C'est notre combo par défaut.

Ce qui ne marche pas (encore)

Agents 100% autonomes sur tâches critiques. En 2026, le taux d'erreur reste trop élevé pour laisser un agent décider seul sur du financier ou du juridique sans supervision. Compte 1-3 % de décisions douteuses, c'est inacceptable sur ces verticaux.

Agents multi-agents complexes. L'idée d'orchestrer 5 agents qui se parlent (agent commercial → agent rédacteur → agent QA → …) fait rêver. En prod, ça tousse. Trop de surface d'échec, trop dur à débugger. Notre conseil : 1 agent monolithique bien conçu > 5 agents qui collaborent mal.

Agents qui doivent comprendre du contexte fin métier sans RAG sérieux. Un agent sans accès propre à ta base de connaissances métier hallucine 30-50 % du temps. Le RAG bien fait est non-négociable.

Comment évaluer si un agent IA est pertinent pour ta boîte

Trois questions filtre avant d'investir :

1. Combien de temps humain est consommé sur la tâche ? Si la réponse est < 5 heures/semaine cumulées, n'investis pas. Le coût de build d'un agent (15-50 k€) ne sera jamais rentabilisé.

2. Est-ce que la tâche est bien définie ? Tu peux écrire en 10 lignes les inputs, outputs et critères de succès ? Si non, l'agent ne saura pas quoi faire.

3. Est-ce qu'une erreur de l'agent coûte cher ? Si oui (envoi d'email externe, paiement, contrat), prévois un mode validation humaine. Sinon, full auto possible.

Si les 3 réponses sont positives, tu as un cas d'usage. Sinon, attends.

Notre méthode pour intégrer un agent IA

Étape 1 — Cadrage du périmètre (1 semaine)

On formalise :

L'objectif unique de l'agent (1 phrase)
Les inputs disponibles
Les outputs attendus
Les outils auxquels l'agent peut accéder (5 max)
Les modes : full auto vs human-in-the-loop
Le set d'évaluation (50-100 cas avec input + output attendu)

Étape 2 — Build itératif (4-8 semaines)

Cycles courts. Stack par défaut : Claude 4 Sonnet + LangGraph + Langfuse pour l'observabilité.

À chaque cycle on mesure :

Taux de réussite sur le set d'éval
Coût d'inférence moyen par exécution
Latence

Étape 3 — Production avec garde-fous (1-2 semaines)

Avant le go-live :

Validation humaine activée par défaut sur les actions à fort impact
Logs complets via Langfuse (pour pouvoir audit chaque exécution)
Alertes : drift qualité, dépassement budget, taux d'erreur
Plan rollback documenté

Ce qu'on a livré chez Zetos

Trois exemples concrets :

Moriarty — agent qui croise un profil entreprise avec 2 000+ aides publiques françaises et propose les éligibles. Stack : Claude 4 Sonnet + RAG custom. Mode validation humaine sur les recommandations finales.

CS Consulting — intégration d'un agent dans la plateforme métier d'un cabinet : classification automatique de tickets, génération de comptes-rendus. Mode copilot, l'humain valide avant envoi.

Sur ces 2 cas, le ROI s'est montré dès le 3e mois en prod : 60-80 % de temps gagné sur les tâches concernées.

Combien ça coûte

Format	Build	Coût d'inférence/mois	Délai
Agent simple sur 1 cas d'usage	15-30 k€	100-500 €	4-6 semaines
Agent vertical métier	30-80 k€	500-2 000 €	8-12 semaines
Agent intégré full écosystème	80-200 k€	2 000-8 000 €	4-6 mois

Le coût d'inférence est très variable selon le volume d'utilisation et le modèle choisi. On dimensionne ça au cadrage.

Bottom line

Les agents IA en 2026, c'est une vraie techno qui marche si tu :

Restreins le périmètre (1 cas d'usage à la fois)
Choisis 5 outils max
Gardes l'humain dans la boucle sur les actions à risque
Mesures le ROI avec un set d'éval avant et un coût d'inférence après

C'est une mauvaise idée si tu :

Veux remplacer une équipe entière par 1 agent (tu vas droit au mur)
N'as pas de mesure objective de réussite
Vises des tâches mal définies
N'as personne en interne pour gérer les exceptions

Si tu penses qu'un agent peut servir ta boîte, on fait des cadrages d'intégration IA en 1-2 semaines. À la fin tu sais quel agent construire et combien il coûtera vraiment en prod.