Remplacer les briques Fin, module par module

Fin regroupe la réponse basée sur la documentation, la classification d’intention, le routage, le transfert vers un agent et les analytics dans une même expérience support (source: Intercom Pricing page (consulted 2026-06)). Remplacez ces capacités par des modules isolés et testables séparément.

Brique Fin	Équivalent modulaire
QA sur docs	RAG avec embeddings, index vectoriel et citations de passages sources.
Classification d’intention	Règles de mots-clés pour cas connus, LLM pour messages ambigus.
Routage	Matrice intent × priorité × client, exécutée avant création ou mise à jour du ticket.
Handover agent	Appel API vers le help desk avec transcript, score de confiance et raison d’escalade.
Contexte client	Lecture CRM: plan, statut compte, historique tickets, propriétaire commercial.
Analytics	Événements: réponse IA, fallback, escalade, résolution, CSAT post-réponse.

Conservez le help desk existant. Insérez l’IA comme proxy côté widget ou edge Worker: elle lit le message, enrichit le contexte, tente une réponse, puis laisse passer vers le help desk si une règle échoue.

Suivez le taux de résolution autonome, le taux de fallback, la CSAT post-réponse et le temps avant prise en main humaine. Ces métriques couvrent la valeur, les trous de connaissance, la qualité perçue et le coût opérationnel de l’escalade.

Stack abordable: Help Scout + Cloudflare Workers + OpenAI

Help Scout reste le help desk et le widget client; son coût dépend du plan choisi (source: Help Scout Pricing page (consulted 2026-06)).

Exécuter le flux

Le widget Help Scout envoie la question à un Cloudflare Worker. Le Worker interroge Pinecone, passe les passages pertinents au modèle de chat OpenAI, puis renvoie une réponse ou crée une escalade agent.

Verrouiller le prompt système

Prompt minimal: rôle support produit, ton concis, limites strictes. Garde-fous obligatoires: ne pas inventer, citer l’article source utilisé, demander clarification si le contexte manque, escalader si incertain.

Router par intent et confiance

Facturation, compte et sécurité vont directement à un humain. Les how-to produit passent par l’IA si le score de similarité et les heuristiques confirment une base documentaire exploitable.

💡

Dans le tableur TCO, séparez trois postes: tokens LLM facturés au token (source: OpenAI Pricing page (consulted 2026-06)), exécutions Workers facturées à la requête et à la durée d’exécution (source: Cloudflare Workers Pricing page (consulted 2026-06)), index vecteur facturé selon le volume stocké et les opérations (source: Pinecone Pricing page (consulted 2026-06)).

Stockez les clés API dans Workers Secrets. Utilisez KV uniquement pour la configuration non sensible. Avant indexation, filtrez e-mails, noms, identifiants client et extraits de factures. Les logs doivent contenir l’intent, l’issue de routage et l’identifiant de conversation, jamais le contenu PII.

Calculer le TCO par ticket et comparer à Intercom Fin

La cellule centrale doit rester lisible par un fondateur et vérifiable par un dev: TCO/ticket = (coût LLM + recherche vecteur + exécution Worker + part sièges help desk) / tickets résolus par l’IA.

Renseignez les prix unitaires séparément: tokens d’entrée/sortie pour OpenAI (source: OpenAI Pricing page (consulted 2026-06)), stockage et opérations Pinecone (source: Pinecone Pricing page (consulted 2026-06)), requêtes et durée Worker (source: Cloudflare Workers Pricing page (consulted 2026-06)), sièges Help Scout alloués au support IA (source: Help Scout Pricing page (consulted 2026-06)).

Créez les onglets Hypothèses, Prix unitaires, Volumétrie, Résultats. Dans Volumétrie, gardez des colonnes séparées pour tokens in, tokens out, appels de recherche, tickets entrants, taux d’escalade et tickets résolus par l’IA.

Comparez le résultat au coût IA d’Intercom Fin affiché sur la page de prix ou dans votre contrat (source: Intercom Pricing page (consulted 2026-06)). Si le TCO par ticket est inférieur au coût Intercom Fin, basculez le périmètre mesuré. Sinon, limitez le pilote aux FAQs avec fort volume, faible ambiguïté et peu d’escalades.

Mesurer la qualité: protocole d’éval, prompts et garde-fous

Constituez un dataset d’éval avec des tickets réels anonymisés, une réponse attendue et un label d’intent pour chaque ticket. Suivez les KPI suivants: exactitude, refus appropriés, taux d’escalade utile.

Évaluer

Exécutez les variantes de prompts et de modèles en batch JSONL. Chaque ligne contient le ticket, l’intent attendu, les documents récupérés et la réponse de référence.

Comparer

Mesurez la réussite sur la réponse générée. Une réussite exige une réponse correcte, sourcée par le corpus, sans invention de politique produit.

Corriger

Classez chaque erreur: contexte manquant, mauvaise récupération, règle absente, refus raté, escalade inutile. Chaque classe produit une action: enrichir le corpus, ajuster le prompt, ou modifier le routeur.

Bloquez les PII avant génération. Limitez la réponse au corpus indexé. Ajoutez une consigne explicite de non-réponse quand le document pertinent manque.

Si la confiance est basse ou si aucun document n’est trouvé, retournez une réponse courte et ouvrez une escalade humaine avec le ticket original.

Ajoutez un bouton utile/pas utile dans le widget. Transmettez le vote au Worker avec l’identifiant du ticket pour réindexation ciblée ou ajustement du prompt.

Déployer en 7 étapes et sécuriser l’escalade humaine

Gardez le déploiement réversible: chaque brique doit pouvoir être coupée sans casser le help desk humain.

Créer le widget Help Scout

Publiez le widget sur les pages support et conservez le formulaire existant pour les demandes non reconnues.

Déployer le Worker et les Secrets

Placez les clés API, l’URL du help desk et le kill switch dans les Secrets, jamais dans le code.

Indexer la base de connaissances

Découpez les articles en passages sourcés, avec titre, URL, date de mise à jour et produit concerné.

Brancher embeddings et LLM

Le Worker récupère les passages proches, construit le prompt système, puis demande une réponse citant les sources utilisées.

Configurer intentions et filtres

Routez facturation, sécurité, bug critique et compte bloqué vers un humain avant génération.

Lancer les tests offline

Rejouez des conversations historiques et vérifiez réponse, sources, intention, fallback et absence d’action risquée.

Mettre en production progressive

Activez d’abord les intents simples, puis élargissez uniquement si les métriques restent stables.

Escalade, observabilité et rollback

Le handover crée une note interne avec question utilisateur, extraits sources, score de similarité et tag dédié de suivi.

Logguez chaque échange en JSON: latence, tokens, intention, fallback, sources retenues et décision d’escalade.

Regroupez ces champs dans un tableau de bord hebdomadaire et déclenchez des alertes sur dérive de fallback, latence ou coût.

Le rollback reste volontaire: kill switch IA, routage intégral vers humains, conservation des logs pour diagnostic.

Comment remplacer Intercom Fin par une solution abordable