Le 5 septembre 2025, Anthropic a demandé au juge fédéral américain William Alsup d’approuver un accord à hauteur de 1,5 milliard de dollars conclu avec les parties demanderesses afin de mettre fin à l’action collective intentée par un groupe d’auteurs qui accusaient l’entreprise d’intelligence artificielle d’avoir utilisé leurs livres pour entraîner son modèle Claude sans leur autorisation.
Contexte
Nous avions déjà commenté l’ordonnance sur l’usage loyal rendue le 23 juin 2025 par le US District Court for the Northern District of California.
La Cour avait accepté l’argument selon lequel la reproduction d’œuvres protégées par le droit d’auteur légitimement acquises pour entraîner le LLM constituait un cas de fair use.
Ce même tribunal avait toutefois refusé de considérer ces reproductions comme un cas de fair use en ce qui concernait (1) les copies piratées téléchargées et utilisées pour constituer une bibliothèque centrale (construite à partir de LibGen et PiLiMi, mais conservée une fois le modèle formé), ainsi que (2) les copies réalisées à partir des copies effectuées pour constituer la bibliothèque centrale, mais qui n’avaient pas été utilisées pour entraîner le LLM.
Accord
Afin d’éviter une décision dont l’issue aurait pu lui être défavorable, Anthropic a accepté de régler l’affaire en concluant un accord à l’amiable portant sur les points suivants :
- Elle a accepté de verser au moins 1,5 milliard de dollars américains aux demandeurs, sur la base d’une estimation d’environ 500 000 livres piratés, soitun montant de USD 3’000 par œuvre. Si ce nombre devait s’avérer plus élevé, le montant augmenterait en conséquence.
- Elle a accepté de détruire les bases de données LibGen et PiLiMi après l’expiration de toute mesure de conservation ou ordonnance judiciaire.
- En échange, elle bénéficiera d’une exonération rétroactive uniquement pour les faits survenus jusqu’au 25 août 2025. Les réclamations découlant de faits survenus après le 25 août 2025 ne seront en revanche pas couvertes par l’accord amiable, pas plus que les réclamations (passées ou futures) découlant de résultats prétendument contrefaisants provenant des modèles d’IA d’Anthropic.
Commentaire
Ce règlement est le plus important de l’histoire du droit d’auteur, avec un montant substantiel de USD 3’ 000 par copie d’œuvre piratée.
Cet accord pourrait avoir des implications majeures en ce qui concerne la formation d’un LLM. Si l’usage loyal n’est accepté « que » pour les copies de livres qui ont été achetés, l’entraînement d’un LLM deviendra beaucoup plus onéreuse et nécessitera un financement important.
Bien qu’aucune décision n’ait été rendue sur le fond, cet accord suscite d’ores et déjà certaines réflexions:
- À une époque où les contenus librement accessibles ont déjà largement été utilisés pour l’entraînement de ces modèles et où les contenus de qualité nécessitent désormais l’accès à des contenus propriétaires, cela signifie-t-il en fin de compte que les Big Tech pourraient être les seules capables de financer l’entraînement de leurs LLM et, par conséquent, être les grandes gagnantes d’une telle décision ?
- Cela signifie-t-il en fin de compte que les fournisseurs pourraient trouver refuge en Europe pour entraîner leurs LLM sur la base de l’exception relative à l’exploration de textes et de fouilles de données prévue à l’article 4 de la directive 2019/790 (en supposant que l’opt out ne devienne pas la règle, ce qui pourrait bien être le cas) ?
Quoi qu’il en soit, il semble que les considérations suivantes puissent émerger de cet accord :
- Les titulaires de droits ont droit à la transparence et à la traçabilité des données utilisées pour entraîner un modèle. À cet égard, les éditeurs auraient tout intérêt à constituer des ensembles de données de leurs œuvres avec les métadonnées associées afin de prendre en charge la traçabilité de leurs propres œuvres.
- Les éditeurs devraient veiller à inclure un mécanisme de refus qui interdit le scraping en ligne de leur contenu, conformément à l’article 4.3 de la directive 2019/790.
- Les actions collectives (class action), une question longtemps débattue en Suisse, pourraient être le seul moyen pour les titulaires de droits d’auteur de faire valoir leurs droits en justice.
- Les fournisseurs doivent s’assurer que le contenu utilisé pour entraîner leur modèle a été acquis de manière légitime et traçable, ce de manière documentée.
- Du point de vue de la gouvernance, les fournisseurs devraient donc s’assurer, par le biais de mécanismes d’audit, que le contenu utilisé pour former le modèle provient de sources légitimes et que les ensembles de données y relatives ne soient pas conservés une fois le modèle formé.
- L’accord pourrait également renforcer la position des sociétés de gestion collective et les inciter à mettre en place des mécanismes de rémunération destinés à garantir l’efficacité (par exemple, par le biais de licences collectives étendues) et éviter une défaillance regrettable du marché en raison de coûts de transaction beaucoup trop élevés qui viendrait prétériter l’innovation (market failure).
