Zetos
    Retour au blog

    IA & data

    Agents IA dans ton équipe produit : ce qui marche, ce qui ne marche pas

    Pas un n-ième article sur 'l'IA va remplacer les devs'. Notre vraie expérience d'agents IA en production sur des produits clients en 2026.

    Théo Pascard· Co-fondateur, Zetos··7 min

    Tout le monde parle d'agents IA en 2026. Peu de gens en ont vraiment mis en production. La distance entre la démo et le produit qui sert tous les jours est immense.

    Voici ce qu'on a appris en intégrant des agents IA sur 5 produits clients depuis 2024. Ce qui fonctionne, ce qui se vautre.

    D'abord, c'est quoi un agent IA ?

    Pour ne pas tourner autour du pot : un agent IA, c'est un LLM qui peut utiliser des outils (lire une DB, appeler une API, générer un fichier) pour atteindre un objectif multi-étapes.

    C'est différent d'un chatbot — qui se contente de générer du texte — et différent d'un workflow — qui suit des étapes pré-définies. Un agent décide lui-même de la séquence d'actions.

    Exemples concrets :

    • Agent commercial : qualifie un lead entrant, crée la fiche dans le CRM, envoie un mail personnalisé, planifie une relance
    • Agent juridique : extrait les clauses d'un contrat, compare avec un référentiel, génère un mémo de risques
    • Agent dev : reçoit un ticket, identifie le code concerné, propose un patch, ouvre une PR

    L'attractivité est évidente. Le piège aussi.

    Ce qui marche en 2026 (vraiment)

    Agents verticaux sur tâches répétitives bien spécifiées. Plus c'est étroit, plus ça marche. Un agent qui « gère le support client » est trop large. Un agent qui « classifie un ticket entrant en 1 des 12 catégories prédéfinies et propose une réponse parmi 30 templates » fonctionne très bien.

    Agents avec accès limité aux outils. 2-5 outils max. Au-delà, l'agent se perd, choisit le mauvais outil, ou enchaîne 15 appels avant de répondre. Restreindre l'environnement = augmenter la fiabilité.

    Agents en mode « copilot » avec validation humaine. L'agent prépare, l'humain valide. Pour 80 % des cas business sensibles (envoi de mail externe, transaction financière, modification de DB), c'est le bon mode. Pleine autonomie réservée aux cas à faible risque.

    Stack qui marche : Claude 4 Sonnet + LangGraph (ou Mastra) + observabilité Langfuse. C'est notre combo par défaut.

    Ce qui ne marche pas (encore)

    Agents 100% autonomes sur tâches critiques. En 2026, le taux d'erreur reste trop élevé pour laisser un agent décider seul sur du financier ou du juridique sans supervision. Compte 1-3 % de décisions douteuses, c'est inacceptable sur ces verticaux.

    Agents multi-agents complexes. L'idée d'orchestrer 5 agents qui se parlent (agent commercial → agent rédacteur → agent QA → …) fait rêver. En prod, ça tousse. Trop de surface d'échec, trop dur à débugger. Notre conseil : 1 agent monolithique bien conçu > 5 agents qui collaborent mal.

    Agents qui doivent comprendre du contexte fin métier sans RAG sérieux. Un agent sans accès propre à ta base de connaissances métier hallucine 30-50 % du temps. Le RAG bien fait est non-négociable.

    Comment évaluer si un agent IA est pertinent pour ta boîte

    Trois questions filtre avant d'investir :

    1. Combien de temps humain est consommé sur la tâche ? Si la réponse est < 5 heures/semaine cumulées, n'investis pas. Le coût de build d'un agent (15-50 k€) ne sera jamais rentabilisé.

    2. Est-ce que la tâche est bien définie ? Tu peux écrire en 10 lignes les inputs, outputs et critères de succès ? Si non, l'agent ne saura pas quoi faire.

    3. Est-ce qu'une erreur de l'agent coûte cher ? Si oui (envoi d'email externe, paiement, contrat), prévois un mode validation humaine. Sinon, full auto possible.

    Si les 3 réponses sont positives, tu as un cas d'usage. Sinon, attends.

    Notre méthode pour intégrer un agent IA

    Étape 1 — Cadrage du périmètre (1 semaine)

    On formalise :

    • L'objectif unique de l'agent (1 phrase)
    • Les inputs disponibles
    • Les outputs attendus
    • Les outils auxquels l'agent peut accéder (5 max)
    • Les modes : full auto vs human-in-the-loop
    • Le set d'évaluation (50-100 cas avec input + output attendu)

    Étape 2 — Build itératif (4-8 semaines)

    Cycles courts. Stack par défaut : Claude 4 Sonnet + LangGraph + Langfuse pour l'observabilité.

    À chaque cycle on mesure :

    • Taux de réussite sur le set d'éval
    • Coût d'inférence moyen par exécution
    • Latence

    Étape 3 — Production avec garde-fous (1-2 semaines)

    Avant le go-live :

    • Validation humaine activée par défaut sur les actions à fort impact
    • Logs complets via Langfuse (pour pouvoir audit chaque exécution)
    • Alertes : drift qualité, dépassement budget, taux d'erreur
    • Plan rollback documenté

    Ce qu'on a livré chez Zetos

    Trois exemples concrets :

    Moriarty — agent qui croise un profil entreprise avec 2 000+ aides publiques françaises et propose les éligibles. Stack : Claude 4 Sonnet + RAG custom. Mode validation humaine sur les recommandations finales.

    CS Consulting — intégration d'un agent dans la plateforme métier d'un cabinet : classification automatique de tickets, génération de comptes-rendus. Mode copilot, l'humain valide avant envoi.

    Sur ces 2 cas, le ROI s'est montré dès le 3e mois en prod : 60-80 % de temps gagné sur les tâches concernées.

    Combien ça coûte

    Format Build Coût d'inférence/mois Délai
    Agent simple sur 1 cas d'usage 15-30 k€ 100-500 € 4-6 semaines
    Agent vertical métier 30-80 k€ 500-2 000 € 8-12 semaines
    Agent intégré full écosystème 80-200 k€ 2 000-8 000 € 4-6 mois

    Le coût d'inférence est très variable selon le volume d'utilisation et le modèle choisi. On dimensionne ça au cadrage.

    Bottom line

    Les agents IA en 2026, c'est une vraie techno qui marche si tu :

    • Restreins le périmètre (1 cas d'usage à la fois)
    • Choisis 5 outils max
    • Gardes l'humain dans la boucle sur les actions à risque
    • Mesures le ROI avec un set d'éval avant et un coût d'inférence après

    C'est une mauvaise idée si tu :

    • Veux remplacer une équipe entière par 1 agent (tu vas droit au mur)
    • N'as pas de mesure objective de réussite
    • Vises des tâches mal définies
    • N'as personne en interne pour gérer les exceptions

    Si tu penses qu'un agent peut servir ta boîte, on fait des cadrages d'intégration IA en 1-2 semaines. À la fin tu sais quel agent construire et combien il coûtera vraiment en prod.

    Tu veux qu'on regarde ton projet ?

    Notre cadrage à 995€ te donne un cahier des charges chiffré sous 2 semaines.