Peut-on entraîner une IA sur ses documents sans exposer ses données ?

Oui, on peut fortement réduire l’exposition. Non, on ne supprime pas le risque par magie.

Le point de départ, c’est une confusion fréquente : quand beaucoup de gens disent “entraîner une IA sur mes documents”, ils ne parlent pas toujours d’un vrai entraînement. Dans la pratique, ils veulent souvent une chose beaucoup plus simple : poser des questions à leurs documents sans les copier-coller à chaque fois. Et là, il faut distinguer deux approches qui n’ont ni le même objectif, ni les mêmes risques : le RAG et le fine-tuning. (learn.microsoft.com)

La vérité froide est la suivante : si votre but est de faire répondre une IA à partir de documents internes, le fine-tuning est souvent le mauvais réflexe, et le RAG est généralement le bon point de départ. Le fine-tuning change le comportement du modèle. Le RAG, lui, va chercher des extraits de vos documents au moment de la question. Ce n’est pas du tout la même logique. (learn.microsoft.com)

La vraie question : voulez-vous “apprendre” vos documents au modèle, ou juste les interroger ?

C’est là que tout se joue.

Il existe en gros trois usages très différents :

coller un document dans un prompt ;
faire du RAG ;
faire du fine-tuning.

Ces trois méthodes impliquent des niveaux de contrôle, de coût et de risque très différents.

Si vous collez un PDF ou un extrait dans un prompt, vous envoyez directement ce contenu dans le contexte de la requête. C’est rapide, mais c’est brut, peu scalable, et souvent mauvais pour la confidentialité si vous faites ça sans discipline.

Si vous faites du RAG (Retrieval-Augmented Generation), vous ne “gravez” pas vos documents dans le modèle. Vous indexez vos contenus, puis au moment où l’utilisateur pose une question, le système récupère les passages pertinents et les ajoute au contexte de la réponse. Microsoft décrit justement le RAG comme le modèle standard pour faire travailler un LLM sur des données spécifiques ou propriétaires que le modèle ne connaît pas déjà. (learn.microsoft.com)

Si vous faites du fine-tuning, vous entraînez le modèle sur des exemples d’entrées/sorties pour modifier sa manière de répondre. OpenAI le présente comme un moyen d’améliorer la constance du format, le respect d’une tâche, la gestion de certains cas d’usage, ou de réduire la longueur des prompts à grande échelle. Ce n’est pas, par nature, une couche de recherche documentaire sécurisée. (developers.openai.com)

RAG : ce que c’est vraiment

Le RAG est la bonne solution quand vous voulez qu’une IA réponde à partir de vos documents sans transformer ces documents en “mémoire diffuse” dans les poids du modèle.

Le principe est simple :

vos documents sont découpés en morceaux ;
ces morceaux sont indexés ;
une question arrive ;
le système récupère les extraits les plus pertinents ;
ces extraits sont envoyés au modèle pour “ancrer” la réponse.

C’est précisément ce que décrit l’architecture RAG : les documents sont chunkés, enrichis, vectorisés puis stockés dans un index ; ensuite, à l’inférence, le système récupère les meilleurs résultats et les place dans le prompt envoyé au modèle. (learn.microsoft.com)

Pourquoi le RAG est souvent préférable

Le RAG gagne dans la plupart des cas où vous travaillez avec :

une base documentaire qui change ;
des documents qu’il faut pouvoir mettre à jour ;
des contenus qu’il faut parfois supprimer ;
des réponses qui doivent rester rattachées à une source ;
des besoins métier où l’accès doit dépendre des droits de l’utilisateur.

Autrement dit : si vos documents vivent, évoluent, expirent, ou doivent respecter des permissions, le RAG est beaucoup plus sain que le fine-tuning.

La limite qu’on oublie toujours

Le RAG n’est pas une baguette magique de confidentialité.

Il réduit un problème, mais il en crée d’autres si l’implémentation est mauvaise :

récupération de documents trop large ;
absence de filtrage par droits d’accès ;
logs trop bavards ;
extraits sensibles injectés dans le prompt sans nécessité ;
documents mal préparés qui contiennent plus que ce qu’il fallait indexer.

Microsoft insiste d’ailleurs sur un point central : ouvrir du contenu privé à un LLM exige un contrôle d’accès granulaire. Les utilisateurs et les agents ne doivent récupérer que les contenus qu’ils sont autorisés à voir. (learn.microsoft.com)

Donc non, “on fait du RAG” ne suffit pas. Un RAG mal gouverné devient juste une fuite de données plus automatisée.

Fine-tuning : ce que ça fait, et ce que ça ne fait pas

Le fine-tuning est souvent mal compris.

Il ne sert pas d’abord à “brancher un modèle sur vos documents”. Il sert surtout à adapter le comportement du modèle :

ton ;
format ;
style de sortie ;
type de structure attendu ;
réussite sur un type de tâche donné ;
réduction du besoin de répéter les mêmes instructions.

OpenAI le présente clairement comme un moyen de rendre un modèle plus constant sur un format, de mieux gérer certains cas d’entrée, d’utiliser des prompts plus courts et, à grande échelle, d’éviter de renvoyer les mêmes exemples à chaque requête. (developers.openai.com)

Pourquoi le fine-tuning n’est pas la bonne réponse pour “mes documents”

Si vous fine-tunez un modèle avec des contenus documentaires, vous créez plusieurs problèmes :

la connaissance devient moins traçable ;
vous ne savez plus facilement “quel passage” a produit quelle réponse ;
corriger ou retirer une information devient plus lourd ;
les documents vivants deviennent pénibles à maintenir ;
vous mélangez comportement du modèle et contenu métier.

En clair : le fine-tuning est bon pour apprendre comment répondre. Il est beaucoup moins propre pour gérer à quoi répondre quand la matière vient d’un corpus vivant.

Peut-il réduire l’exposition ?

Oui, dans un sens précis.

Une fois le fine-tuning fait, vous n’avez plus besoin de renvoyer les mêmes exemples dans chaque prompt. OpenAI note d’ailleurs que cela peut permettre d’utiliser des prompts plus courts et de ne pas inclure la même donnée contextuelle à chaque requête. (developers.openai.com)

Mais cela ne veut pas dire “zéro exposition” :

il a quand même fallu uploader les données d’entraînement ;
ces données ont servi à modifier le modèle ;
vous avez déplacé l’exposition dans la phase d’entraînement, vous ne l’avez pas abolie.

Donc si votre objectif est “je ne veux pas que mes documents quittent mon périmètre”, le fine-tuning via un service externe ne résout pas le problème de base.

Peut-on vraiment éviter d’exposer ses données ?

La réponse rigoureuse est : on peut limiter fortement l’exposition, mais seulement sous certaines conditions.

Cas 1 : vous utilisez un service externe

Si vos documents, vos extraits ou vos exemples partent vers un fournisseur tiers, ils ont déjà quitté votre environnement.

Même si le fournisseur promet :

de ne pas entraîner sur vos données par défaut ;
de vous laisser la propriété des entrées/sorties ;
de proposer des options de rétention plus strictes ;

cela ne change pas ce fait fondamental : vos données ont transité par une infrastructure externe. Par exemple, OpenAI indique que ses offres business et son API n’utilisent pas les données d’entreprise pour entraîner les modèles par défaut, mais cela répond à la question du training, pas à celle d’un isolement absolu de l’infrastructure. (openai.com)

Donc, si vous utilisez un SaaS, la bonne question n’est pas “est-ce entraîné ?” mais :

où vont les données ;
combien de temps elles restent ;
qui peut y accéder ;
quels logs existent ;
quelles garanties contractuelles vous avez.

Cas 2 : vous déployez chez vous ou dans un périmètre que vous contrôlez

C’est là que vous réduisez le plus réellement l’exposition.

Si le modèle, l’index, les embeddings, les logs et l’orchestrateur tournent dans un environnement que vous contrôlez, vous pouvez garder les flux dans votre périmètre. C’est la seule voie crédible si vous cherchez une vraie réduction structurelle du risque.

Mais là encore, il ne faut pas raconter d’histoires : self-hosted ne veut pas dire automatiquement sûr.

Un déploiement interne mal fait reste vulnérable si :

les droits sont trop larges ;
les traces sont conservées n’importe comment ;
les documents sont mal nettoyés ;
les accès au moteur de recherche sont trop permissifs ;
les exports sont incontrôlés.

Le bon déploiement privé réduit le risque. Le mauvais le déplace.

Le risque le plus sous-estimé : les fuites par RAG lui-même

Il y a un angle mort classique : beaucoup imaginent que le danger vient seulement de “donner mes docs au fournisseur”. C’est incomplet.

Même en RAG, vous pouvez avoir des fuites si :

le système va chercher trop de documents ;
le filtrage par utilisateur est mauvais ;
un document contient des instructions malicieuses ;
le modèle traite le document comme une instruction au lieu de le traiter comme une simple source.

OWASP rappelle que la prompt injection peut permettre un accès non autorisé à des données, contourner des contrôles ou provoquer une fuite d’informations. Le risque existe aussi en injection indirecte : des instructions malicieuses peuvent être cachées dans des pages web, des documents, des emails ou d’autres contenus que le système récupère. (cheatsheetseries.owasp.org)

Traduction simple : un document récupéré par votre RAG doit être traité comme une donnée non fiable, pas comme une vérité innocente.

C’est un point décisif. Beaucoup d’architectures IA tombent ici : elles sécurisent le modèle, mais pas la chaîne documentaire.

Les bonnes pratiques qui font vraiment la différence

Si vous voulez utiliser vos documents sans transformer votre projet en passoire, voici les réflexes qui comptent réellement.

1. Choisir RAG par défaut si le contenu doit rester modifiable

Si vos documents changent, doivent être supprimés, mis à jour ou limités par droits d’accès, partez d’abord sur du RAG.

Le fine-tuning n’est à envisager que si vous cherchez surtout à apprendre :

un style ;
un format ;
une structure ;
un comportement métier récurrent.

Pas pour remplacer une vraie couche documentaire.

2. Ne jamais indexer “tout” par paresse

C’est une faute de débutant.

Avant indexation, il faut décider :

ce qu’on garde ;
ce qu’on exclut ;
ce qui doit être découpé ;
ce qui doit être masqué ;
ce qui ne doit jamais entrer dans l’index.

Le guide Azure sur le design RAG insiste justement sur cette phase : il faut déterminer ce qu’il faut ignorer, ce qu’il faut capturer, comment le chunker, puis nettoyer les chunks pour éliminer ce qui n’apporte rien au sens utile. (learn.microsoft.com)

Un RAG propre commence par une discipline documentaire, pas par un vector store.

3. Appliquer un vrai contrôle d’accès au moment de la récupération

Le contrôle d’accès ne doit pas se faire “après la réponse”. Il doit s’appliquer avant que les passages soient récupérés.

Sinon, vous créez un système où le modèle voit des contenus qu’il n’aurait jamais dû recevoir.

C’est exactement pour cela que le contrôle d’accès granulaire est un enjeu central dans les architectures RAG. (learn.microsoft.com)

En clair : l’utilisateur A ne doit pas pouvoir faire émerger, même indirectement, les documents de l’utilisateur B.

4. Traiter les documents récupérés comme du contenu non fiable

Un document interne n’est pas “sûr” simplement parce qu’il vient de votre entreprise.
Un PDF externe n’est pas “inoffensif” simplement parce qu’il a l’air normal.

OWASP recommande de partir d’un principe simple : les contenus récupérés peuvent contenir des instructions malveillantes ou provoquer une dérive du système. Il faut donc éviter de laisser le modèle fusionner sans garde-fou instructions système, input utilisateur et contenu récupéré. (cheatsheetseries.owasp.org)

Donc :

séparez clairement instructions système et documents ;
n’accordez jamais aux documents le statut de commande ;
limitez les outils ou actions déclenchables depuis une réponse.

5. Réduire les logs et la rétention

Beaucoup de fuites ne viennent pas du modèle lui-même, mais des traces autour :

logs applicatifs ;
observabilité ;
debugging ;
exports ;
historiques de prompts ;
journaux d’erreurs.

Si vous gardez tout, vous recréez un autre silo de risque.

La logique saine est simple :

journaliser le minimum utile ;
limiter la durée de conservation ;
masquer les données sensibles dans les traces ;
cloisonner l’accès aux journaux.

6. Redacter avant indexation, pas après incident

N’indexez pas des secrets “en espérant” qu’ils ne remonteront pas.

Avant ingestion, retirez ou masquez ce qui n’a pas besoin d’exister dans l’index :

mots de passe ;
tokens ;
secrets d’API ;
identifiants internes ;
données RH inutiles ;
informations médicales ou contractuelles non nécessaires ;
PII qui n’apporte rien à la tâche.

La bonne stratégie n’est pas “protéger tout ce qu’on a indexé”. La bonne stratégie est d’éviter d’indexer ce qui n’a rien à faire là.

7. Ne pas confondre “embeddings” et anonymisation

C’est un autre piège courant.

Transformer un document en vecteurs ne le rend pas magiquement inoffensif. Un index vectoriel reste une représentation exploitable du contenu. Ce n’est pas une excuse pour relâcher vos exigences de sécurité, de cloisonnement ou de gouvernance.

Le vecteur change la forme du problème. Il ne supprime pas le problème.

Ce qu’il faut retenir

Si votre objectif est de faire répondre une IA à partir de vos documents sans les graver dans le modèle, le RAG est généralement la bonne approche. Il permet de garder le contenu dans une couche documentaire distincte, de le mettre à jour, de le supprimer et de mieux rattacher les réponses à des sources. (learn.microsoft.com)

Le fine-tuning, lui, sert surtout à ajuster le comportement du modèle : style, format, régularité, performance sur un type de tâche. Il peut réduire le besoin de renvoyer les mêmes exemples dans chaque prompt, mais il ne remplace pas une architecture documentaire saine, et il n’annule pas l’exposition de la phase d’entraînement. (developers.openai.com)

Donc, peut-on “entraîner” une IA sur ses documents sans exposer ses données ?

oui, on peut fortement limiter l’exposition ;
non, pas avec une promesse marketing ou un simple mot comme “RAG” ;
et le vrai niveau de sécurité dépend surtout du déploiement, du filtrage d’accès, du nettoyage des données et de la manière dont vous traitez les contenus récupérés. (learn.microsoft.com)