Remplacer les briques Fin, module par module
Fin regroupe la réponse basée sur la documentation, la classification d’intention, le routage, le transfert vers un agent et les analytics dans une même expérience support (source: Intercom Pricing page (consulted 2026-06)). Remplacez ces capacités par des modules isolés et testables séparément.
| Brique Fin | Équivalent modulaire |
|---|---|
| QA sur docs | RAG avec embeddings, index vectoriel et citations de passages sources. |
| Classification d’intention | Règles de mots-clés pour cas connus, LLM pour messages ambigus. |
| Routage | Matrice intent × priorité × client, exécutée avant création ou mise à jour du ticket. |
| Handover agent | Appel API vers le help desk avec transcript, score de confiance et raison d’escalade. |
| Contexte client | Lecture CRM: plan, statut compte, historique tickets, propriétaire commercial. |
| Analytics | Événements: réponse IA, fallback, escalade, résolution, CSAT post-réponse. |
Conservez le help desk existant. Insérez l’IA comme proxy côté widget ou edge Worker: elle lit le message, enrichit le contexte, tente une réponse, puis laisse passer vers le help desk si une règle échoue.
Suivez le taux de résolution autonome, le taux de fallback, la CSAT post-réponse et le temps avant prise en main humaine. Ces métriques couvrent la valeur, les trous de connaissance, la qualité perçue et le coût opérationnel de l’escalade.
Stack abordable: Help Scout + Cloudflare Workers + OpenAI
Help Scout reste le help desk et le widget client; son coût dépend du plan choisi (source: Help Scout Pricing page (consulted 2026-06)).
Exécuter le flux
Le widget Help Scout envoie la question à un Cloudflare Worker. Le Worker interroge Pinecone, passe les passages pertinents au modèle de chat OpenAI, puis renvoie une réponse ou crée une escalade agent.
Verrouiller le prompt système
Prompt minimal: rôle support produit, ton concis, limites strictes. Garde-fous obligatoires: ne pas inventer, citer l’article source utilisé, demander clarification si le contexte manque, escalader si incertain.
Router par intent et confiance
Facturation, compte et sécurité vont directement à un humain. Les how-to produit passent par l’IA si le score de similarité et les heuristiques confirment une base documentaire exploitable.
Dans le tableur TCO, séparez trois postes: tokens LLM facturés au token (source: OpenAI Pricing page (consulted 2026-06)), exécutions Workers facturées à la requête et à la durée d’exécution (source: Cloudflare Workers Pricing page (consulted 2026-06)), index vecteur facturé selon le volume stocké et les opérations (source: Pinecone Pricing page (consulted 2026-06)).
Stockez les clés API dans Workers Secrets. Utilisez KV uniquement pour la configuration non sensible. Avant indexation, filtrez e-mails, noms, identifiants client et extraits de factures. Les logs doivent contenir l’intent, l’issue de routage et l’identifiant de conversation, jamais le contenu PII.
Calculer le TCO par ticket et comparer à Intercom Fin
La cellule centrale doit rester lisible par un fondateur et vérifiable par un dev: TCO/ticket = (coût LLM + recherche vecteur + exécution Worker + part sièges help desk) / tickets résolus par l’IA.
Renseignez les prix unitaires séparément: tokens d’entrée/sortie pour OpenAI (source: OpenAI Pricing page (consulted 2026-06)), stockage et opérations Pinecone (source: Pinecone Pricing page (consulted 2026-06)), requêtes et durée Worker (source: Cloudflare Workers Pricing page (consulted 2026-06)), sièges Help Scout alloués au support IA (source: Help Scout Pricing page (consulted 2026-06)).
Créez les onglets Hypothèses, Prix unitaires, Volumétrie, Résultats. Dans Volumétrie, gardez des colonnes séparées pour tokens in, tokens out, appels de recherche, tickets entrants, taux d’escalade et tickets résolus par l’IA.
Comparez le résultat au coût IA d’Intercom Fin affiché sur la page de prix ou dans votre contrat (source: Intercom Pricing page (consulted 2026-06)). Si le TCO par ticket est inférieur au coût Intercom Fin, basculez le périmètre mesuré. Sinon, limitez le pilote aux FAQs avec fort volume, faible ambiguïté et peu d’escalades.
Mesurer la qualité: protocole d’éval, prompts et garde-fous
Constituez un dataset d’éval avec des tickets réels anonymisés, une réponse attendue et un label d’intent pour chaque ticket. Suivez les KPI suivants: exactitude, refus appropriés, taux d’escalade utile.
Évaluer
Exécutez les variantes de prompts et de modèles en batch JSONL. Chaque ligne contient le ticket, l’intent attendu, les documents récupérés et la réponse de référence.
Comparer
Mesurez la réussite sur la réponse générée. Une réussite exige une réponse correcte, sourcée par le corpus, sans invention de politique produit.
Corriger
Classez chaque erreur: contexte manquant, mauvaise récupération, règle absente, refus raté, escalade inutile. Chaque classe produit une action: enrichir le corpus, ajuster le prompt, ou modifier le routeur.
Bloquez les PII avant génération. Limitez la réponse au corpus indexé. Ajoutez une consigne explicite de non-réponse quand le document pertinent manque.
Si la confiance est basse ou si aucun document n’est trouvé, retournez une réponse courte et ouvrez une escalade humaine avec le ticket original.
Ajoutez un bouton utile/pas utile dans le widget. Transmettez le vote au Worker avec l’identifiant du ticket pour réindexation ciblée ou ajustement du prompt.
Déployer en 7 étapes et sécuriser l’escalade humaine
Gardez le déploiement réversible: chaque brique doit pouvoir être coupée sans casser le help desk humain.
Créer le widget Help Scout
Publiez le widget sur les pages support et conservez le formulaire existant pour les demandes non reconnues.
Déployer le Worker et les Secrets
Placez les clés API, l’URL du help desk et le kill switch dans les Secrets, jamais dans le code.
Indexer la base de connaissances
Découpez les articles en passages sourcés, avec titre, URL, date de mise à jour et produit concerné.
Brancher embeddings et LLM
Le Worker récupère les passages proches, construit le prompt système, puis demande une réponse citant les sources utilisées.
Configurer intentions et filtres
Routez facturation, sécurité, bug critique et compte bloqué vers un humain avant génération.
Lancer les tests offline
Rejouez des conversations historiques et vérifiez réponse, sources, intention, fallback et absence d’action risquée.
Mettre en production progressive
Activez d’abord les intents simples, puis élargissez uniquement si les métriques restent stables.
Escalade, observabilité et rollback
Le handover crée une note interne avec question utilisateur, extraits sources, score de similarité et tag dédié de suivi.
Logguez chaque échange en JSON: latence, tokens, intention, fallback, sources retenues et décision d’escalade.
Regroupez ces champs dans un tableau de bord hebdomadaire et déclenchez des alertes sur dérive de fallback, latence ou coût.
Le rollback reste volontaire: kill switch IA, routage intégral vers humains, conservation des logs pour diagnostic.
Continue reading
Comparaison d'Intercom Fin et des solutions de support
Un cadre technique concret pour choisir entre Intercom Fin et les solutions de support, avec un plan d’essai de 14 jours et des métriques actionnables.
Meilleures alternatives à Intercom Fin pour les startups
Shortlist par cas d’usage, workflow de test 48 h et prompts prêts à l’emploi pour choisir une alternative viable à Intercom Fin sans perdre de temps.
Meilleures alternatives à Inkeep et Mendable pour vos docs
Un comparatif actionnable avec une matrice de choix, un plan POC en 48 h, un modèle TCO et un protocole de bench pour remplacer Inkeep/Mendable.