Copyrights and AI

Entraînement d’un LLM: fair use (Anthropic)

Le 23 juin 2025, le tribunal de district du nord de la Californie a statué dans l’affaire Anthropic que la formation d’un LLM relevait de l’usage loyal.

Nous avions déjà évoqué l’affaire Thomson Reuters, dans laquelle le tribunal de district de l’État du Delaware avait jugé que la reproduction d’éléments protégés par le droit d’auteur pour entraîner un système d’intelligence artificielle ne pouvait pas être considérée comme un usage loyal lorsque le modèle final était destiné à concurrencer les éléments protégés par le droit d’auteur. Dans cette affaire, la Cour avait toutefois souligné le fait que l’entraînement n’avait pas trait à un LLM.

La nuance apportée par ce Tribunal nous avait amené à penser que l’entraînement d’un LLM pouvait être considéré comme une transformation suffisante pour être considéré comme un cas de fair use si le LLM entraîné était un LLM générique, un point de vue manifestement partagé par Mark Lemley dans son mémoire déposé auprès de la Cour dans l’affaire Anthropic, déjà rapportée ici.

La Cour ne semble guère avoir hésité à accorder un jugement sommaire en faveur d’Anthropic en jugeant que l’entraînement d’un LLM était un cas de fair use.

La Cour a clairement indiqué que l’enjeu se limitait à l’entraînement d’un LLM, les demandeurs ayant reconnu que les résultats générés ne contenaient aucune de leurs œuvres protégées par le droit d’auteur.

En ce qui concerne l’entraînement d’un LLM, la Cour a statué comme suit :

  • En vertu du premier facteur, dans une large mesure décisif, l’objectif et la nature de l’utilisation d’œuvres protégées par le droit d’auteur pour former des LLM à générer de nouveaux textes étaient essentiellement transformateurs, peu importe que la formation ait été destinée à mémoriser les éléments expressifs des œuvres. Pour la Cour, “Claude a produit une grammaire, une composition et un style que le LLM sous-jacent a distillés à partir de milliers d’œuvres. Mais si quelqu’un lisait tous les classiques modernes en raison de leur expression exceptionnelle, les mémorisait et émulait ensuite un mélange de leurs meilleurs écrits, cela violerait-il la loi sur le droit d’auteur ? Bien sûr que non. Le droit d’auteur ne s’étend pas aux “méthodes de fonctionnement, concepts ou principes illustrés ou incorporés dans une œuvre“.
  • En ce qui concerne le deuxième facteur, la Cour a accepté le point de vue des demandeurs selon lequel leurs œuvres avaient été choisies pour leurs qualités expressives dans la construction d’une bibliothèque centrale et ensuite dans la formation de LLM spécifiques, de sorte que le deuxième facteur a pesé en défaveur de l’utilisation équitable.
  • En ce qui concerne le troisième facteur, la Cour a jugé que “ce qui importe […] n’est pas tant la quantité et la substantialité de la partie utilisée pour réaliser une copie, mais plutôt la quantité et la substantialité de ce qui est ainsi rendu accessible à un public [dans l’utilisation secondaire supposée] pour lequel il peut servir de substitut concurrent [à l’utilisation principale]“. Compte tenu du fait que les demandeurs n’avaient allégué aucun lien traçable entre la production du service Claude et leurs œuvres, le tribunal a jugé que les copies utilisées pour entraîner le LLM étaient destinée à une utilisation différente, de sorte que ce facteur a pesé en faveur d’Anthropic.
  • En ce qui concerne le quatrième facteur, la Cour a considéré que les copies utilisées pour entraîner les LLM n’ont pas remplacé et ne remplaceront pas la demande des œuvres originales, à tout le moins pas d’une manière qui soit prise en compte par le Copyright Act. Bien que la Cour ait accepté le fait que l’entraînement des LLM puisse entraîner la création d’œuvres concurrentes, elle a considéré qu’il ne s’agissait pas d’un cas de figure protégé par le droit d’auteur, dont l’objectif consiste à promouvoir les œuvres originales, et non à protéger les auteurs contre la concurrence. En fin de compte, la Cour a considéré que, bien que l’entraînement des LLM puisse prétériter un marché émergent permettant aux auteurs de concéder des licences sur leurs œuvres dans le seul but d’entraîner des LLM, ce marché n’était pas un marché visé et protégé par le droit d’auteur. Par conséquent, le quatrième facteur a pesé en faveur d’Anthropic.

Il convient de noter que :

  • La Cour établit une distinction claire entre la phase d’entraînement d’un LLM, pour laquelle l’usage loyal est accepté indépendamment du fait que les copies utilisées proviennent apparemment de sources légales ou illégales telles que des sites web piratés, et la construction d’un registre (équivalent au final à un set de données) comprenant toutes les œuvres numérisées.
  • La constitution d’un tel registre (1) destiné à conserver pour toujours ces oeuvres, et qui (2) nécessite de transformer des livres au format analogique en livres numériques (en les scannant) et pour laquelle (3) l’entraînement d’un LLM est l’une des nombreuses utilisations potentielles, (4) sans qu’il soit envisagé de distribuer ces œuvres, est acceptable ; à condition, toutefois, que les copies utilisées proviennent de sources légales, et non de sites web piratés.

Question ouverte : cela signifie-t-il que l’entraînement d’un LLM sur des copies provenant de sites web pirates peut toujours être considéré comme un cas de fair use (comme je comprends la décision), mais que le set de données (registre central) sur lequel a eu lieu cet entraînement doit être supprimé une fois que le modèle a été entraîné (au moins dans la mesure où des copies illégales ont été faites) ? Il ne fait aucun doute que la décision, qui peut encore faire l’objet d’un appel, laisse encore beaucoup de place à la discussion.

À propos de l’auteur

Me Philippe Gilliéron est avocat à Genève au sein du bureau BMG Avocats (www.bmglaw.ch), spécialisé en droit de la propriété intellectuelle, en particulier dans les domaines des marques, designs, brevets et droits d’auteur, dans le domaine du numérique, en particulier intelligence artificielle, et la protection des données. Il conseille des entreprises suisses et internationales dans leurs stratégies de protection des actifs immatériels et représente ses clients devant les juridictions suisses ainsi que l’Institut Fédéral de la Propriété Intellectuelle (IPI).

Pour toute question liée à la propriété intellectuelle, au numérique, à l’intelligence artificielle ou encore la protection des données, contactez Me Philippe Gilliéron, avocat en propriété intellectuelle à Genève à l’adresse suivante:
philippe.gillieron@bmglaw.ch.