Le RAG n'est bon que si les connaissances qu'on l'alimente le sont — et la « documentation » de beaucoup d'entreprises est un cimetière de PDF.
La génération augmentée par recherche permet à l'IA de répondre à partir de vos politiques, procédures et historiques — au lieu de deviner. Construire ce corpus, c'est surtout organiser comment vous travaillez déjà. Voici un chemin pratique pour PME et cabinets.
En bref
- Commencer par un domaine (RH, sécurité, accueil client) — pas tout le lecteur
- Sources propres, à jour et permissionnées battent le volume
- Lié au contexte et à la gouvernance des données
- Entretien continu — nommer un responsable
Ce qui entre dans une v1
| Inclure | Exclure (d'abord) |
|---|---|
| Politiques et SOP approuvées | Brouillons, « copie de copie » |
| FAQ tenues à jour | Dumps personnels |
| Gabarits et listes stables | Archives projet obsolètes |
| Résolutions tickets (sanitisées) | Fichiers clients non classés |
Même discipline que réduire le pompierage.
Structure que la recherche aime
- Un sujet par document — longs PDF récupèrent mal
- Titres clairs — « Politique vacances 2026 » pas « final_v3_NOUVEAU »
- Métadonnées — propriétaire, date revue, langue, statut
- Version — un emplacement canonique ; archiver l'ancien
- Accès = permissions existantes — le RAG ne doit pas fuiter ce que SharePoint restreignait déjà
Étapes (4–6 semaines typiques)
Semaines 1–2 — Inventaire et nettoyage
- 30 questions que le staff pose souvent
- Quels docs devraient répondre
- Supprimer doublons ; marquer obsolète
Semaine 3 — Index pilote
- Plateforme selon votre stack
- Index vert/jaune seulement (classification)
- Tester la recherche sans génération — bons extraits?
Semaine 4 — Génération avec citations
- Réponses avec liens sources
- 20 questions test
- Noter : correct, partiel, faux, sans réponse
Semaines 5–6 — HITL et déploiement
- Revue humaine pour réponses sensibles
- Former : « demander + vérifier la source »
- File de correction des ratés
Fraîcheur et propriété
RAG périmé pire qu'aucun — citation erronée de politique détruit la confiance.
- Responsable par domaine
- Revue trimestrielle minimum pour contenu réglementé
- Mise à jour à chaque changement de politique — retirer l'ancien de l'index
Permissions et Québec
Renseignements personnels indexés → obligations Loi 25. Corpus fr et en à tester séparément.
Échecs fréquents
- Tout indexer — bruit noie le signal
- Pas de responsable — corpus pourri en six mois
- Sauter les tests de recherche — UI chat directe
- Réponses externes sans revue
Quand le RAG n'est pas la première étape
Si le problème est « aucun processus documenté », régler opérations et irritants d'abord. Le RAG amplifie la structure — il ne la crée pas du chaos.
Pour aller plus loin
Les bases de connaissances sont des actifs opérationnels. Échangeons sur le choix du domaine et les tests de recherche avant un nouvel achat.
