I. Introduction
Au mois de mai 2025, le US Copyright Office a publié une “version de prépublication” de la troisième partie de son rapport global sur le droit d’auteur et l’intelligence artificielle.
Cette référence plutôt inhabituelle à une “version pré-publication” peut être considérée (ou non…) comme un signe d’un mécontentement anticipé de l’administration Trump à l’égard de l’approche plutôt nuancée (et à mon avis bienvenue) de l’Office américain du droit d’auteur.
Ce mécontentement s’est avéré être une réalité. Deux jours après avoir limogé la bibliothécaire du Congrès Carla Hayden, le président Donald Trump a renvoyé la directrice du Bureau du droit d’auteur Shira Perlmutter.
Par conséquent, il faudra attendre pour voir si la “version de prépublication” se transformera en “version finale” dans les mois à venir ou, comme on peut s’y attendre, ce qui en sera exclu.
Cette préoccupation semble d’autant plus sérieuse qu’il existe actuellement un véritable clivage parmi les universitaires américains entre une majorité qui tend à favoriser une approche anti-copyright (une tendance qui existait bien avant l’administration Trump pour être juste) et une minorité d’auteurs “classiques” qui favorisent une approche traditionnelle du droit d’auteur. Ce clivage a été mis en évidence par la démission, le 12 mai 2025, de quatre éminents universitaires de l’American Law Institute (ALI) à la suite de la publication de l’ALI Restatement of Copyright Law, considéré comme reflétant les opinions des rapporteurs plutôt qu’un consensus global.
Le débat sur le droit d’auteur et l’étendue de sa protection n’a peut-être jamais été aussi brûlant. Bien que la “version finale” de cette partie 3 puisse donc être différente de cette “prépublication”, je pense néanmoins qu’il vaut la peine de résumer les points clés à la lumière de ce que je considère personnellement comme un très bon rapport.
Le rapport est divisé en quatre parties :
- Violation du droit de reproduction ? (II)
- Fair use ? (III)
- Modèles de licences (IV)
II. L’entraînement des modèles d’intelligence artificielle au moyen d’oeuvres protégées: une violation du droit de reproduction?
L’office américain des droits d’auteur fait une distinction entre :
- Collecte et conservation des données : les étapes nécessaires à la production d’un ensemble de données d’entraînement contenant des œuvres protégées par le droit d’auteur impliquent clairement le droit de reproduction.
- Entraînement : le processus d’entraînement met également en jeu le droit de reproduction à trois titres : (i) la vitesse et l’ampleur de l’entraînement exigent que les développeurs téléchargent l’ensemble des données et les copient sur un support de stockage à haute performance avant l’entraînement ; (ii) les œuvres ou des parties substantielles des œuvres sont reproduites temporairement lorsqu’elles sont “montrées” au modèle par lots, avec une durée qui peut être suffisamment longue pour porter atteinte au droit de reproduction en fonction du modèle en question et des implémentations matérielles et logicielles spécifiques utilisées par les développeurs ; (iii) le processus d’entraînement peut aboutir à des poids de modèle qui contiennent des copies d’œuvres dans les données de formation si une expression protégeable substantielle des œuvres en question est mémorisée.
- Les RAG impliquent également la reproduction d’œuvres protégées par le droit d’auteur
- Les sorties peuvent enfreindre le droit de reproduction (pouvant conduire à des œuvres dérivées) si elles reproduisent ou ressemblent fortement à des œuvres protégées par le droit d’auteur, ce qui peut également conduire à une violation des droits de communication et de mise à disposition.
III. L’entraînement des des modèles d’intelligence artificielle au moyen d’oeuvres protégées: un cas de fair use?
C’est là que le rapport s’écarte selon toute vraisemblance des attentes de l’administration Trump selon lesquelles toute utilisation d’œuvres protégées par le droit d’auteur pour former un modèle serait (aurait dû être) considérée comme étant des cas de fair use.
Ce n’est pas – à juste titre – l’avis du US Copyright Office, qui n’exclut toutefois pas que l’exception de fair use puisse être invoquée avec succès en fonction des circonstances.
Le US Copyright Office passe en revue les quatre critères propres au fair use de la manière suivante :
a) Premier facteur (purpose ): le caractère transformateur
L’Office souligne tout d’abord le fait que les œuvres protégées par le droit d’auteur sont utilisées de différentes manières au cours du développement et du déploiement des modèles d’IA générative, exigeant par là-même un examen distinct.
Sur la question clé du “caractère transformateur“, le US Copyright Office, se référant à Warhol, rappelle que la question clé consiste à savoir “si la nouvelle œuvre remplace simplement la création originale, ou si elle ajoute quelque chose de nouveau, avec un objectif supplémentaire ou une finalité différente, modifiant la première en lui conférant une expression, une signification ou un message nouveaux...”.
Ce qui compte, ce n’est pas l’acte immédiat de copie, mais son objectif ultime, un point de vue qui reflète celui exprimé le 12 février 2025 par le tribunal américain du district du Delaware dans l’affaire Thomson Reuters v. Ross Intelligence. De l’avis de l’Office, l’entraînement d’un modèle génératif de base d’IA sera souvent transformateur dès lors que le processus convertit une collection massive de données en un modèle statistique qui peut générer un large éventail de résultats en des domaines divers. La réponse à cette question dépendra toutefois de la fonctionnalité du modèle et de la manière dont il est déployé : si l’entraînement d’un modèle sur un ensemble conséquent de données telles que des messages sur les médias sociaux, des articles et des livres visant à déployer un système de modération de contenu sera transformateur, tel ne sera pas le cas si cet entraînement est destiné à générer des résultats qui sont substantiellement similaires à des œuvres protégées par le droit d’auteur figurant dans le set de données ayant servi à l’entraînement du modèle. Ainsi, tel ne sera par exemple pas le cas de l’entraînement d’un modèle audio sur des enregistrements sonores en vue de son déploiement dans un système permettant de générer de nouveaux enregistrements sonores, puisqu’un tel système a au final la même finalité que les données d’entraînement sur le marché de la musique, et qu’il vise à satisfaire le même le même besoin de la part des consommateurs.
Il est intéressant de noter que l’Office considère comme erroné l’argument selon lequel l’utilisation d’œuvres protégées par le droit d’auteur pour entraîner des modèles d’intelligence artificielle serait hautement transformatrice dès lors que l’objectif de cette exploitation ne serait pas d’exploiter leur expressivité (non expressive use), mais uniquement leurs métadonnées). Pour l’Office, les modèles sont entraînés sur des centaines de milliers de tokens pour comprendre la manière dont les mots sont sélectionnés et disposés au sein des phrases, des paragraphes ou du document en son intégralité ; il en va de même pour les images. Autrement dit, leur utilisation a pour finalité de générer un contenu expressif et, pour ce faire, exploiter l’expressivité des données exploitées. Par conséquent, l’entraînement ne peut pas être considéré comme purement “non expressif”. Enfin, l’Office considère sans surprise que l’utilisation en connaissance de cause d’un ensemble de données constitué d’œuvres piratées ou illégalement accessibles devrait en toute hypothèse peser dans la balance contre la reconnaissance d’un usage loyal.
c) Deuxième facteur (nature)
L’utilisation d’œuvres plus créatives ou expressives (telles que les romans, les films, l’art ou la musique) est moins susceptible de constituer un usage loyal que l’utilisation d’œuvres factuelles ou fonctionnelles (telles que du code informatique). Compte tenu du fait que les modèles sont régulièrement entraînés sur une variété d’œuvres (à la fois expressives et fonctionnelles, publiées ou non), l’appréciation peut varier en fonction du modèle et des œuvres en question.
c) Troisième facteur (amount)
Dans la plupart des cas, le téléchargement d’œuvres, leur regroupement dans un ensemble de données d’entraînement et l’entraînement sur cet ensemble impliqueront l’utilisation de la totalité ou de la quasi-totalité des œuvres reproduites. Si la copie d’œuvres entières et l’utilisation de leur contenu expressif à des fins d’entraînement penchent généralement en défaveur d’un usage loyal, l’Office reconnaît que lorsque l’objectif poursuivi requiert de s’entraîner sur un grand nombre d’œuvres, leur reproduction en intégralité peut s’avérer raisonnable. En ce cas, le troisième facteur ne devrait pas peser en défaveur d’un usage loyal.
d) Quatrième facteur (effects upon market)
L’Office précise que l’appréciation de ce quatrième facteur exige que l’on s’interroge non seulement sur l’atteinte à l’original, mais aussi sur l’atteinte au marché des œuvres dérivées. L’effet sur le marché peut résulter des circonstances suivantes :
(i) Les ventes perdues
Les ventes perdues sont celles qui priveraient le détenteur des droits de revenus importants du fait que les acheteurs potentiels préféreraient acquérir (ou obtenir gratuitement) un résultat généré substituable à l’original.
(ii) La dilution du marché
La dilution du marché, c’est-à-dire le préjudice causé à l’ensemble des œuvres d’un créateur ou même au marché en général, qui peut se produire lorsque les résultats d’un modèle ne sont pas substantiellement similaires à une œuvre spécifique protégée par le droit d’auteur, mais peuvent diluer le marché pour des œuvres similaires à celles trouvées dans les données d’apprentissage, y compris en générant du matériel stylistiquement similaire à ces œuvres.
(iii) Les occasions perdues en matière de licences
L’Office considère que les licences volontaires existent déjà dans certains secteurs et qu’il s’agit d’un modèle susceptible de s’étendre à divers secteurs. Ce faisant, l’Office réfute le principal argument d’Anthropic dans sa réponse déposée le 27 mars 2025 devant le tribunal de district des États-Unis pour le district nord de Californie dans l’affaire Bartz v. Anthropic. L’Office indique clairement – à juste titre – que s’il est légitime de se préocupper des difficultés d’accès au marché, et donc des problèmes de concurrence que le modèle de licence volontaires pourrait générer entre les développeurs de systèmes IA, ce problème est général dès l’instant où l’octroi de licences s’avère nécessaire, indépendamment du domaine concerné. Il est évident pour l’Office que l’octroi de licences sera toujours plus facile pour ceux qui ont les poches plus profondes, de sorte que ces préoccupations ne devraient pas entrer en ligne de compte.
En conclusion, l’Office considère sans surprise que les premier et quatrième facteurs sont susceptibles d’avoir un poids considérable dans l’analyse. L’Office précise qu’il appartiendra aux tribunaux de pondérer ces différents facteurs. Étant donné que le GenAI implique un éventail d’utilisations et d’impacts, certaines utilisations seront considérées comme un usage loyal, d’autres non.
IV. Les modèles de licences possibles
En conclusion, le US Copyright Office considère que des accords volontaires de licence ont vu le jour au cours des dernières années. L’évolution du marché pourrait permettre de mieux comprendre dans quelle mesure de tels accords sont susceptibles de rémunérer correctement les titulaires de droits d’auteur pour l’utilisation de leurs œuvres lors de l’entraînement de modèles d’IA. Les structures de compensation basées sur un pourcentage des revenus ou des bénéfices, sans dépenses initiales importantes, peuvent constituer une alternative intéressante pour les petits développeurs qui cherchent à entrer sur le marché.
Les systèmes de licences obligatoires, tels que nous les connaissons en Suisse en particulier, ne sont pas plébiscitées par l’Office (et par la majorité des commentateurs). Pour le US Copyright Office, ces licences obligatoires :
- prendraient des années à pouvoir être finalisées,
- conduiraient à des taux de redevance fixes probablement inférieurs aux taux du marché, il serait difficile de les modifier, et
- constitueraient au final une dérogation regrettable au droit de l’auteur de contrôler l’utilisation et la distribution de ses œuvres.
Il en va de même pour le mécanisme d’opt-out (tel que prévu par l’article 4 de la directive 2019/790), sachant que, pour l’Office, les titulaires de droits d’auteur peuvent souhaiter que leurs œuvres soient scannées pour pouvoir être décelées par les moteur de recherche, mais pas pour permettre l’entraînement de modèles d’IA.
Si des défaillances du marché devaient être avérées en raison du fait qu’aucun modèle de licences volontaires ne parviendrait à conférer une rémunération adéquate aux titulaires des œuvres exploitées, des licences collectives étendues (telles que les connaissent les pays nordiques et telles qu’elle existe en Suisse àl’article 43a de notre loi fédérale sur le droit d’auteur) pourraient entrer en ligne de compte.
V. Enseignements pratiques
S’il faudra voir ce qu’il advient de cette version « provisoire », et en quoi la version « définitive » (si version définitive il y a) présentera des différences, on peut d’ores et déjà tirer certains enseignements de cette approche nuancée du US Copyright Office, transposable à bien des égards quel que soit l’ordre juridique examiné :
Objet | Raison d’être | Actions |
Auditer vos jeux de données d’entraînement | Former une IA sur des œuvres protégées peut enfreindre le droit de reproduction si les données sont obtenues ou stockées de manière illicite. | – Réalisez un audit de conformité en matière de propriété intellectuelle. – Classez les sources de données (licenciées, publiques, à risque). – Mettez en place une traçabilité et une documentation rigoureuses. |
Mettre en œuvre une stratégie de licences différenciée selon les risques | Le fair use n’est pas garanti. La conclusion de licences est une option plus sûre et meilleure pour votre réputation. | – Utilisez des licences volontaires pour les œuvres expressives. – Envisagez des modèles de partage de revenus si les budgets sont limités. – Recourez aux licences collectives étendues (par ex. art. 43a LDA CH). |
Éviter le contenu piraté ou obtenu illégalement | L’utilisation volontaire de contenu piraté pèse lourdement contre l’exception de fair use et expose à des risques juridiques. | – Vérifiez soigneusement les jeux de données. – Évitez les données extraites ou non autorisées. – Tenez un registre des sources de contenu utilisé. |
Surveiller les sorties générées par l’IA | Des résultats similaires à des œuvres existantes peuvent enfreindre les droits de reproduction ou de création dérivée. | – Intégrez des outils de détection de contenu similaire. – Prévoyez une relecture humaine pour les contenus créatifs. – Évitez les modèles qui reproduisent les données d’entraînement. |
Définir clairement l’objectif de l’IA dès le départ | La légalité dépend du caractère transformateur de l’usage et de son objectif final. | – Documentez l’objectif fonctionnel de votre modèle. – Distinguez les cas d’usage comme la modération ou l’analyse des contenus génératifs. |
Évaluer l’impact sur le marché et les opportunités de licence | Les tribunaux examinent les effets sur les œuvres originales et les œuvres dérivées potentielles. | – Évaluez les risques de substitution. – Suivez les opportunités de licence manquées. – Préparez une démonstration d’impact neutre ou positif. |
Anticiper les divergences juridiques internationales | Les approches américaine, européenne et suisse en matière d’IA et de droit d’auteur diffèrent. | – Suivez les cadres suisses et européens (notamment la directive DSM). – Surveillez les évolutions du droit américain. – Adaptez votre stratégie de conformité à chaque juridiction. |
Intégrer l’expertise juridique dès les premières étapes | Attendre la mise en production est trop tard pour gérer les risques juridiques liés à l’IA. | – Impliquez les équipes juridiques dès la phase de conception. – Mettez en place des points de contrôle de conformité. – Encouragez la collaboration entre juristes, développeurs et responsables produit. |
À propos de l’auteur
Me Philippe Gilliéron est avocat à Genève au sein du bureau BMG Avocats (www.bmglaw.ch), spécialisé en droit de la propriété intellectuelle, en particulier dans les domaines des marques, designs, brevets et droits d’auteur, ainsi que les droits des technologies, en particulier l’intelligence artificielle, et la protection des données. Il conseille des entreprises suisses et internationales dans leurs stratégies de protection des actifs immatériels et représente ses clients devant les juridictions suisses ainsi que l’Institut Fédéral de la Propriété Intellectuelle (IPI).
Pour toute question liée à la propriété intellectuelle, au numérique, à l’intelligence artificielle ou encore la protection des données, contactez Me Philippe Gilliéron, avocat en propriété intellectuelle à Genève à l’adresse suivante: philippe.gillieron@bmglaw.ch.