Artificial Intelligence

Constitution d’un set de données à des fins d’entraînement : vers une absence de violation des droits d’auteur ?

  1. Remarques liminaires : les faits

Le 27 septembre 2024, le Landgericht de Hamburg (LG) a rendu un arrêt attendu visant à répondre à la question de savoir dans quelle mesure la constitution d’une base de données (LAION) reproduisant près de six milliards d’images associées à des textes descriptifs et liens y relatifs viole les droits d’auteur existant sur ces images.

A titre liminaire, il est bon de relever que la question n’était donc pas de savoir si l’exploitation de cette base de données à des fins d’entraînements d’un modèle IA violait des droits d’auteur, mais bien de savoir si la constitution d’une telle base, mise gratuitement à la disposition de tiers susceptibles de l’exploiter à de telles fins, violait ces droits.

Rappelons également qu’en droit allemand, les images sont protégées indépendamment de la question de savoir si elle présente un caractère individuel, conformément à l’art. 72 al. 1er de la loi allemande sur le droit d’auteur (UrhG), qui retient que « Lichtbilder und Erzeugnisse, die ähnlich wie Lichtbilder hergestellt werden, werden in entsprechender Anwendung der für Lichtbildwerke geltenden Vorschriften des Teils 1 geschützt ».

Il était établi que l’image ayant entraîné l’ouverture d’action à l’encontre de LAION avait bien été reproduite et traitée dans le set de données incriminé, et qu’elle avait été extraite à partir de la  banque d’images www.bigstockphoto.com au bénéfice d’une licence de la part du demandeur. La qualité pour agir du demandeur, un enjeu récurrent dans ce type d’affaires, ne prêtait donc pas à discussion dans celle-ci.

Si la reproduction de l’image n’était pas contestée, la question se posait de savoir si LAION était en mesure de se prévaloir d’une exception prévue par le droit d’auteur allemand. Trois dispositions sont tour à tour examinées par le LG, avec des considérations intéressantes : les § 44a, 44b et 60d de la loi allemande sur le droit d’auteur.

  1. Le § 44a UrhG

Selon cette disposition, qui transpose en droit allemand l’art. 5 ch. 1 de la Directive 2001/29 et qui correspond en droit suisse à l’art. 24a LDA :

« Zulässig sind vorübergehende Vervielfältigungshandlungen, die flüchtig oder begleitend sind und einen integralen und wesentlichen Teil eines technischen Verfahrens darstellen und deren alleiniger Zweck es ist, (1.) eine Übertragung in einem Netz zwischen Dritten durch einen Vermittler oder (2.) eine rechtmäßige Nutzung eines Werkes oder sonstigen Schutzgegenstands zu ermöglichen, und die keine eigenständige wirtschaftliche Bedeutung haben »

Soit, en français :

« Sont autorisés les actes de reproduction provisoires, transtoires ou accessoires, qui font partie intégrante et essentielle d’un procédé technique et dont le seul but est de permettre (1) une transmission sur un réseau entre tiers par un intermédiaire ou (2) une utilisation licite d’une œuvre ou d’un autre objet protégé, et qui n’ont pas de signification économique autonome. »

Le LG Hamburg retient à raison que cette exception est inapplicable à la constitution d’une telle banque de données, dans la mesure où les reproductions générées ne sont ni transitoires, ni accessoires.

Ne peut revêtir un caractère transitoire au sens de cette disposition que la copie dont la durée de vie est limitée à ce qui est nécessaire pour le bon fonctionnement du procédé technique concerné, étant entendu que ce procédé doit être automatisé de sorte qu’il supprime cet acte d’une manière automatique, sans intervention humaine, dès que sa fonction visant à permettre la réalisation d’un tel procédé est achevée (CJUE, C-5/08, 16 juillet 2009, Infopaq/Danske Dagblades Forening, cons. 64).

En l’espèce, outre le fait que la durée de la reproduction demeurait un sujet de discussion, seule une intervention manuelle pouvait entraîner la destruction de la reproduction, ce qui en excluait le caractère transitoire.

De surcroît, ne peut revêtir un caractère accessoire au sens de cette disposition qu’une copie dont la finalité unique consiste à faciliter l’exécution d’un procédé technique, à l’exclusion d’un but autre quel qu’il soit (CJUE, C-360/13, 5 juin 2014,  Public Relations Consultants Associations Ltd v. Newspaper Licensing Agency Ltd and Others, cons. 43).

Or, tel n’était pas le cas en l’espèce où la reproduction des images avaient lieu pour en permettre l’analyse par un logiciel, ce qui constituait le but premier et unique du téléchargement, et non un but accessoire.

  1. Le § 44b UrhG

Selon cette disposition, qui transpose en droit allemand l’art. 4 Directive 2019/790 :

« (1) Text und Data Mining ist die automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen.

(2) Zulässig sind Vervielfältigungen von rechtmäßig zugänglichen Werken für das Text und Data Mining. Die Vervielfältigungen sind zu löschen, wenn sie für das Text und Data Mining nicht mehr erforderlich sind.

(3) Nutzungen nach Absatz 2 Satz 1 sind nur zulässig, wenn der Rechtsinhaber sich diese nicht vorbehalten hat. Ein Nutzungsvorbehalt bei online zugänglichen Werken ist nur dann wirksam, wenn er in maschinenlesbarer Form erfolgt.”

Soit, en français:

(1) La fouille de textes et de données est l’analyse automatisée d’une ou plusieurs œuvres numériques ou numérisées afin d’en extraire des informations, notamment sur les modèles, les tendances et les corrélations.

(2) Les reproductions d’œuvres légalement accessibles pour la fouille de textes et de données sont autorisées. Les reproductions doivent être supprimées lorsqu’elles ne sont plus nécessaires à la fouille de textes et de données.

(3) Les utilisations visées à l’alinéa 2, première phrase, ne sont autorisées que si le titulaire des droits ne se les est pas réservées. Une réserve d’utilisation concernant des œuvres accessibles en ligne n’est valable que si elle est faite sous une forme lisible par machine. »

  • Le § 44b al. 1er UrhG

Le LG retient tout d’abord au sujet de l’alinéa 1er les points suivants :

En premier lieu, le fait que la reproduction des images avait lieu pour procéder à leur examen et les comparer à une description préexistante correspond à l’établissement de corrélations exigées par cette exception. Le fait que la défenderesse ait inséré un « disclaimer » suivant lequel sa banque de données n’avait pas été nettoyée importait peu, dans la mesure où cette absence de nettoyage n’avait trait qu’à l’absence de filtrage de contenus potentiellement sensibles, sans remettre en cause l’analyse elle-même des images aux fins d’établir les corrélations précitées.

En deuxième lieu, l’argument suivant lequel l’exception d’analyse et fouille de données ne peut concerner que l’analyse de données sous-jacente aux œuvres reproduites, à l’exclusion de l’exploitation de leur contenu, apparaît peu pertinent.  Dans un univers digitalisé, la distinction entre les données sous-jacentes et le contenu lui-même apparaît pour le moins délicate, les deux ayant tendance à se confondre.

En troisième lieu, le seul établissement d’une banque d’images ne permet pas encore d’en tirer des conclusions quant à l’utilisation qui sera faite de cette banque. La constitution d’une telle banque d’images doit en effet être distinguée de l’entraînement subséquent de l’algorithme au sein d’un réseau neuronal, puis de l’exploitation du système entraîné pour générer de nouvelles images. Au moment de la constitution de la banque d’images, il n’est pas possible de savoir dans quelle mesure l’entraînement de l’algorithme sera un succès ni s’il sera possible de générer de nouveaux contenus. Les possibilités d’application n’étant pas prévisibles au moment de l’établissement de la banque d’images, l’insécurité juridique qui en découle fait que l’on ne saurait juger du caractère licite de la constitution d’une telle base à l’aune de l’intention future supposée de générer ultérieurement des contenus artificiels.

En quatrième lieu, on ne saurait exclure l’application du § 44b UrhG du simple fait que le législateur ne pouvait pas avoir à l’esprit les systèmes d’intelligence artificielle lors de son adoption. Preuve en est l’art. 53 al. 1er lit. c du Règlement IA, qui retient que les fournisseurs de modèles d’application générale doivent disposer d’une stratégie pour garantir le respect des éventuelles réserves émises conformément à l’art. 4 al. 3 de la Directive 790/2019.

Enfin, l’application du test des trois étapes ne conduit pas à un autre résultat. L’exception de l’analyse et fouilles de données comme il en va en l’espèce constitue un cas particulier dont on voit difficilement comment elle porterait préjudice à l’exploitation normale des images. Bien que  le fait de générer par la suite des images sur la base du système entraîné lors de son exploitation puisse être considéré comme portant un éventuel préjudice à l’exploitation normale des œuvres, tel n’est pas le cas de la seule constitution d’une banque d’images et de sets de données à des fins d’entraînement. Ces deux étapes doivent être clairement distinguées.

Le LG insiste donc sur la distinction qu’il convient de faire entre la simple constitution de sets de données utilisés en un second temps pour entraîner des algorithmes et l’exploitation du système entraîné aux fins de générer des contenus. Seule est soumise à l’examen du LG la question de savoir si cette constitution revêt un caractère licite ou non, indépendamment de son utilisation subséquente, qui est une autre question. Le LG considère, selon moi à juste titre, que juger de la licéité de l’établissement d’une telle banque d’images à l’aune de son utilisation subséquente possible (mais incertaine à ce stade) reviendrait à exclure dans la majorité des hypothèses l’application du § 44b UrhG, ce qui serait contraire à l’intention du législateur.

  • Le § 44b al. 2 UrhG

Le LG retient que les images reproduites par la défenderesse étaient librement accessibles au public. Seules étaient reproduites les images dotées d’un tatouage numérique et disponibles gratuitement en prévisualisation, à l’exclusion des images sans tatouage dont le téléchargement était subordonné à un paiement préalable.

  • Le § 44b al. 3 UrhG

Nonobstant les développements qui précèdent, le LG considère que la demanderesse avait fait usage de la réserve prévue par le § 44b al. 3 UrhG permettant à un fournisseur de contenus d’interdire l’extraction de ces derniers à des fins de fouille et d’analyse de données.

Le LG retient à cet égard les points suivants :

Tout d’abord, le fait que le titulaire des droits d’auteur est en droit de se prévaloir de la réserve émise par l’un de ses licenciés. En l’espèce, la réserve était le fait de la plateforme www.bigstockphoto.com à laquelle le photographe avait concédé une licence sur l’image incriminée, susceptible de sous-licences en faveur des utilisateurs. Le demandeur devait pouvoir s’en prévaloir.

Ensuite, le fait que la réserve doit avoir été émise de manière expresse et soit facilement intelligible pour les utilisateurs. Tel est le cas d’une réserve expresse émise dans des conditions générales disponibles sur le site internet concerné.

Enfin, le fait que l’on doit admettre le caractère lisible par la machine d’une réserve qui n’est contenue que dans des conditions générales. Pour le LG, il existe aujourd’hui suffisamment d’outils IA permettant la lecture automatisée de textes pour attendre des milieux intéressés qu’ils en fassent usage. Cette attente résulte du reste expressément du texte de l’art. 53 al. 1er lit. c du Règlement IA, qui mentionne le recours attendu à des « technologies de pointe » pour identifier une telle réserve.

  • Conclusion intermédiaire

A ce stade, le LG considère donc que la constitution d’une banque de données d’images susceptible d’être ensuite mise gratuitement à disposition de tiers pour entraîner des modèles IA tombe sous le coup du § 44b UrhG, mais que l’insertion d’une réserve comme il en allait en l’espèce en interdit l’extraction.

Le LG ne s’en tient cependant pas là, et poursuit son analyse en examinant l’application du § 60d UrhG.

  1. Le § 60d UrhG

Selon cette disposition, qui transpose en droit allemand l’art. 3 de la Directive 790/2019, et dont les deux premiers alinéas ont plus particulièrement retenu l’attention du LG :

« (1) Vervielfältigungen für Text und Data Mining (§ 44b Absatz 1 und 2 Satz 1) sind für Zwecke der wissenschaftlichen Forschung nach Maßgabe der nachfolgenden Bestimmungen zulässig.

(2) Zu Vervielfältigungen berechtigt sind Forschungsorganisationen. Forschungsorganisationen sind Hochschulen, Forschungsinstitute oder sonstige Einrichtungen, die wissenschaftliche Forschung betreiben, sofern sie (1.) nicht kommerzielle Zwecke verfolgen, (2.) sämtliche Gewinne in die wissenschaftliche Forschung reinvestieren oder (3.) im Rahmen eines staatlich anerkannten Auftrags im öffentlichen Interesse tätig sind.

Nicht nach Satz 1 berechtigt sind Forschungsorganisationen, die mit einem privaten Unternehmen zusammenarbeiten, das einen bestimmenden Einfluss auf die Forschungsorganisation und einen bevorzugten Zugang zu den Ergebnissen der wissenschaftlichen Forschung hat.  »

Soit, en français:

« (1) La fouille de textes et de données (art. 44b al. 1 et 2, première phrase) est autorisée à des fins de recherche scientifique, conformément aux dispositions ci-après.

(2) Les organismes de recherche sont autorisés à faire des reproductions. Les organismes de recherche sont des universités, des instituts de recherche ou d’autres institutions qui effectuent de la recherche scientifique, à condition (1) qu’ils poursuivent des objectifs non commerciaux, (2) que tous les bénéfices soient réinvestis dans la recherche scientifique ou (3) qu’ils agissent dans l’intérêt public dans le cadre d’une mission reconnue par l’État.

Les organismes de recherche qui coopèrent avec une entreprise privée ayant une influence déterminante sur l’organisme de recherche et un accès privilégié aux résultats de la recherche scientifique ne sont pas des organismes autorisés au sens de la disposition précitée. »

Le LG retient les trois points suivants :

S’agissant tout d’abord du premier chiffre, le concept de « fins de recherche scientifique » doit être interprété de manière large. Quand bien même l’acte concerné n’est pas directement exécuté à des « fins de recherche scientifique », il suffit qu’il en constitue une étape, nécessaire pour permettre ultérieurement une telle recherche. Tel est le cas pour le LG de la constitution d’une banque d’images comme il en va en l’espèce, mise gratuitement à disposition et qui est susceptible d’être utilisée ultérieurement par des tiers pour entraîner un réseau neuronal. Peu importe par ailleurs que les tiers en question exploitent la banque de données dans un but commercial, un tel but n’excluant pas pour autant des considérations de recherche scientifique, généralement admis dans le cadre d’une analyse de données à suivre le LG.

S’agissant ensuite du second chiffre, le LG l’estime réalisé dès lors que la banque d’images est mise gratuitement à disposition des tiers ; peu importe que les tiers y ayant recours pour entraîner leurs modèles soient susceptibles d’avoir une activité commerciale.

Enfin, le LG conclut qu’il n’a pas été suffisamment établi par le demandeur que la défenderesse aurait eu quelque lien que ce soit avec une entreprise déterminée ayant une influence déterminante sur elle. Sur ce plan, le LG considère que le demandeur n’a pas satisfait aux exigences du fardeau de la preuve qui lui incombait pour établir une telle affiliation.

Au final, le LG en conclut que la défenderesse est en droit de se prévaloir de l’exception prévue par le § 60d UrhG. Partant, l’action intentée par le demandeur en violation de ses droits d’auteur est rejetée.

  1. Commentaire

Que peut-on retenir de cet arrêt ?

Tout d’abord, il convient de clairement distinguer les différentes étapes dans le développement et l’exploitation des modèles IA, soit :

  • l’établissement d’un set de données permettant à des tels modèles d’être entraînés, seul en cause dans le cas d’espèce ;
  • l’entraînement de l’algorithme au moyen de ce set ensuite ; et
  • l’exploitation du modèle entraîné par des utilisateurs enfin.

L’appréciation juridique peut varier suivant le stade où l’on se place et les acteurs impliqués.

Seule la première étape résidant en l’établissement d’une banque d’images était en cause dans le cas d’espèce. Sans me livrer à une exégèse détaillée de cet arrêt de première instance, les points suivants méritent d’être relevés :

La constitution d’une banque de données impliquant d’établir des corrélations pour vérifier l’exactitude des données relatives aux images et leurs descriptifs textuels, et assurer par là-même la qualité de la banque ainsi constituée, constitue une analyse tombant sous le coup de l’exception prévue en matière de fouille de texte et de données.

L’auteur dont l’œuvre est incorporée à une banque d’images constituée par une agence à laquelle il a concédé des droits d’exploitation (licence) est en droit de se prévaloir des réserves émises dans les conditions générales par son licencié, faisant interdiction à des tiers d’utiliser des robots pour extraire des images. Une réserve émise sous une forme textuelle dans des conditions générales est considérée comme étant lisible par la machine et de ce fait acceptable, puisqu’il peut être attendu de la part des tiers de recourir à des moyens technologiques de pointe, notamment IA, pour leur permettre de prendre connaissance de ces réserves, qui leur sont ainsi opposables.

L’analyse qui précède, fondée sur l’art. 44b UrhG transposant l’art. 4 de la Directive 790/2019, aboutissait ainsi à la conclusion que la constitution de la banque d’images violait les droits d’auteur du demandeur, en tant que la défenderesse n’avait pas tenu compte de l’interdiction contractuelle d’extraire de telles images à des fins d’analyse.

Le LG ne s’en tient cependant pas là. Pour le LG, l’entraînement d’un réseau neuronal constitue une recherche « à des fins scientifiques », et l’établissement d’une banque de données, étape nécessaire pour permettre cet entraînement, en fait dès lors partie. Peu importe que les tiers utilisant la banque de données poursuivent eux, un but commercial, qui n’exclut pas pour autant la recherche « à des fins scientifiques ». Partant, le LG en conclut que l’art. 60d UrhG, qui transpose l’art. 3 de la Directive 719/2019, valide les activités de LAION.

Si l’on peut suivre le raisonnement du LG en ce qui a trait à l’art. 44b UrhG, celui consacré à l’art. 60d UrhG laisse perplexe pour deux raisons :

  • Premièrement, si l’on peut admettre que la recherche scientifique ne soit possible que moyennant la constitution préalable d’une banque d’images et que, de ce fait, l’entité qui la constitue puisse bénéficier de l’exception dont peut se prévaloir ses utilisateurs, on peut en revanche s’étonner que l’exploitation de la banque de données pour entraîner son modèle destiné à être utilisé à des fins commerciales puisse être considéré comme l’étant à des fins scientifiques. Si l’analyse et le traitement de données constitue de par le simple fait du traitement une finalité scientifique, on voit alors difficilement ce qui ne relèverait pas des « fins scientifiques ». Quelle serait alors la raison d’être de l’art. 4 de la Directive 790/2019 si son art. 3, plus généreux puisqu’il n’est pas possible d’en exclure l’application par la voie contractuelle, trouve systématiquement à s’appliquer ?
  • Secondement, si le traitement juridique d’un set de données doit être distingué de son entraînement, faut-il en conclure que seule l’entité qui établit ledit set reproduit les œuvres qui y sont contenues, à l’exclusion de l’entité qui exploite ce set à des fins d’entraînement de son algorithme, et dont seuls des tokens, qui plus est modifiés par des techniques comme les modèles de diffusion, seraient exploités ? Seule la constitution d’un tel set serait alors susceptible d’entraîner l’application du droit d’auteur, à l’exclusion de son entraînement. Affaire à suivre.