GitHub va utiliser vos données pour entrainer Copilot
Le 25 mars, comme tout utilisateur de GitHub, nous avons reçu un mail de la part de GitHub sur une mise à jour importante pudiquement appelée : GitHub Copilot interaction Data Usage Policy. On comprend tout de suite que cela concerne nos comptes, nos données et les possibilités d'utilisation par Copilot.
« Nous avons mis à jour la manière dont GitHub utilise les données pour améliorer les outils de codage IA. À partir du 24 avril, vos interactions avec GitHub Copilot, incluant les entrées, les sorties, les extraits de code (code snippets), les contextes, pourront être utilisées pour entraîner et améliorer les modèles IA, sauf si vous vous y opposez. »
"Si vous aviez précédemment désactivé la collecte de ces données par GitHub pour l'amélioration du produit, votre choix est conservé : vos données ne seront pas utilisées pour l'entraînement, sauf si vous activez cette option." précise l'éditeur.
Un peu ironiquement, GitHub se justifie ainsi "Cette approche est conforme aux pratiques établies du secteur et permettra à nos modèles de fournir une assistance au codage IA plus contextuelle. Nous l'avons testée avec des données d'interaction Microsoft et avons constaté des améliorations significatives, notamment une augmentation des taux d'acceptation dans plusieurs langages."
Pour désactiver ou ajuster cette option avant le 24 avril :
1 - connectez-vous à votre compte
2 - sélectionner Copilot
3 - Choisir si vous autorisez ou non l'utilisation de vos données pour l'entraînement des modèles IA
Dans la FAQ, voici l'ensemble des données qui seront utilisées :
- Outputs accepted or modified by the user
- Inputs sent to GitHub Copilot, including code snippets shown to the model
- Code context surrounding the user’s cursor position
- Comment and documentation that the user wrote
- File names, repository structure, and navigation patterns
- Interactions with Copilot features including Chat and inline suggestions
GitHub précise que ce changement ne concerne pas les interactions provenant de Copilot Business, Enterprise et tous les dépôts appartenant à des entreprises. Bref : tous les comptes business sont largement exclus de cette mise à jour des règles.
Qui aura accès à ces données ? Microsoft et GitHub. Mais GitHub s'autorise aussi à utiliser des prestataires externes pour aider à l'entraînement des modèles utilisés par Copilot. Bien entendu, GitHub garantit la non-revente de vos données ou une utilisation autre que Copilot...
GitHub précise que les API, les tokens, les secrets seront détectés et supprimés des données collectées. GitHub dit clairement que les dépôts privés pourront être collectés pour cet entraînement. L'éditeur limite tout de même l'accès : "Ceci s'applique uniquement aux extraits de code et aux résultats envoyés à Copilot pendant une session utilisateur ; nous n'accédons pas au code stocké dans les dépôts privés et nous ne le récupérons pas lorsqu'il est inactif. Pour empêcher l'utilisation des extraits de code partagés avec Copilot pendant les sessions actives, les utilisateurs peuvent désactiver l'entraînement des modèles dans les paramètres de leur compte GitHub."
Notre avis : est-ce réellement une surprise ? Malheureusement non. Le constat est toujours le même : il faut trouver de nouvelles données pour alimenter les LLM. GitHub cible les utilisateurs de Copilot Free, Pro et Pro+, en gros, tous les développeurs indépendants ou utilisant Copilot pour leur usage personnel !