Les nouveaux standards web pourraient transformer l'utilisation de vos contenus par les modèles d'IA

découvrez les web standards, les meilleures pratiques et normes pour créer des sites web accessibles, performants et compatibles avec tous les navigateurs.

EN BREF

Nouveaux standards pour l'utilisation des contenus par les modèles d'IA.
Création d'un groupe de travail par l'IETF pour définir les règles.
Propositions incluses dans des documents de travail préliminaires publiés.
Introduction d'un champ Content-Usage dans robots.txt pour contrôler l'accès.
Étiquetage des systèmes d'IA : search, train-ai, train-genai, bots.
Objectif : permettre aux propriétaires de sites de gérer l'usage de leur contenu.
Pertinence croissante des préférences AI dans le paysage du SEO.
Réactions mitigées concernant le respect des règles établies par les entreprises d'IA.

Dans un contexte où le web ouvert ressemble de plus en plus à un Far West, les créateurs de contenu font face à des défis importants concernant l'utilisation de leur travail par des modèles d'intelligence artificielle (IA). L'initiative AI Preferences Working Group de l'Internet Engineering Task Force (IETF) émerge avec l'objectif de standardiser des règles permettant aux propriétaires de sites de contrôler l' et l'utilisation de leur contenu par les systèmes d'IA. Des documents récents proposent des labels et des préférences pour indiquer comment leur contenu peut être utilisé, qu'il s'agisse de formation d'IA ou d'indexation. Ce développement pourrait offrir aux créateurs un moyen efficace de protéger leur travail face à la montée en puissance des modèles d'IA, tout en favorisant une utilisation plus éthique et respectueuse de leurs contributions.

Les nouveaux standards web pourraient transformer l'utilisation de vos contenus par les modèles d'IA

Dans un monde de plus en plus gouverné par l'intelligence artificielle (IA), la question du contrôle de vos contenus en ligne devient primordiale. Les récents développements autour des nouveaux standards web ouvrent la voie à une gestion plus efficace de la manière dont les modèles d'IA, notamment les modèles de langage, exploitent vos contenus. Cet article explore les implications de ces nouvelles normes, comment elles peuvent transformer votre relation avec les technologies d'IA et également ce que cela signifie pour la protection de vos droits en tant que créateur de contenu.

Contexte de l'utilisation des contenus en ligne par l'IA

Depuis quelques années, les contenus présents sur le web sont devenus la cible de pratiques de collecte de données agressives. Les créateurs découvrent que leurs œuvres sont souvent utilisées sans consentement ni compensation. Cette situation ressemble à un véritable Far West numérique. Les modèles d'IA, tels que les modèles de langage, exploitent ces contenus, mais les défis étaient nombreux pour les propriétaires de sites web, qui n'avaient que peu de moyens pour protéger leur propriété intellectuelle.

En réponse à cette situation déséquilibrée, l'initiative llms.txt a été conçue pour fournir des règles permettant de contrôler l'utilisation des données par les IA. Cependant, les résultats ont été décevants, car peu d'entreprises ont suivi ces directives. En outre, Google a clairement indiqué qu'il ne soutenait pas l'utilisation de llms.txt.

Émergence des nouveaux standards web

Pour remédier à cette absence de gouvernance, un nouveau protocole émerge : le AI Preferences Working Group, lancé par l'Internet Engineering Task Force (IETF). Créé en janvier dernier, ce groupe a pour mission de développer des règles standardisées et lisibles par machine, permettant aux créateurs de contenus de définir expressément la manière dont les systèmes d'IA peuvent utiliser leurs données.

Depuis sa création, l'IETF a défini des protocoles fondamentaux qui alimentent l'Internet, incluant des éléments comme TCP/IP, HTTP, et DNS. Les travaux de ce groupe s’inscrivent dans une volonté de créer des standards adaptés à l’ère de l’IA, une avancée qui pourrait particulièrement bénéficier aux propriétaires de contenus.

Les objectifs du groupe de travail sur les préférences en matière d’IA

Le groupe de travail se donne pour objectif de standardiser des éléments de base qui permettront d’exprimer les préférences quant à la manière dont le contenu est collecté et traité pour le développement des modèles d’IA. Le but ultime est de faciliter une relation plus équilibrée entre les créateurs de contenu et les technologies d'IA.

Voici quelques aspects clés que le groupe de travail vise à aborder :

Documents standards sur les préférences d'utilisation de l'IA

Le groupe prévoit de publier des documents standards englobant un vocabulaire permettant d'exprimer les préférences en matière d'utilisation de l'IA. Cela se fera indépendamment de la façon dont ces préférences sont associées au contenu, offrant ainsi une flexibilité considérable aux créateurs.

Documentation sur l'association des préférences au contenu

Une autre composante de leur travail consiste à décrire les moyens d'associer ces préférences à des contenus selon des protocoles et formats définis par l'IETF. Cela inclut, mais ne s'y limite pas, à l'utilisation de Well-Known URIs, telles que spécifiées dans le RFC 8615, et des champs d’en-tête de réponse HTTP.

Méthodes de réconciliation des préférences

Le groupe prévoit également d'établir une méthode standard pour réconcilier plusieurs expressions de préférences. Cela permettrait d’éviter toute confusion quant à la manière dont les différentes préférences des créateurs de contenu seraient interprétées et appliquées par les systèmes d'IA.

Les premières propositions du groupe de travail

À ce jour, deux documents principaux ont été publiés, offrant un avant-goût des normes futures. Ces documents incluent :

Un vocabulaire pour exprimer les préférences d'utilisation de l'IA

Ce document propose des définitions claires pour les préférences d'utilisation de l'IA, établissant un langage commun qui pourra être compris par les systèmes d'IA. Une telle avancée visera à améliorer la transparence et à simplifier la responsabilité des outils d'IA.

Association des préférences d'utilisation de l'IA avec le contenu dans HTTP

En parallèle, un autre document expose les moyens d'associer des préférences d'utilisation en matière d'IA avec le contenu à travers le protocole HTTP. Ces propositions permettront aux propriétaires de sites d'établir des interactions claires et précises entre leurs contenus et les systèmes d'IA.

Impact sur la gouvernance des contenus

Ces nouvelles normes pourraient considérablement changer la dynamique entre les entreprises tech et les créateurs de contenus. Avec des règles plus claires et une meilleure compréhension des processus, les créateurs pourraient potentiellement imposer des restrictions sur l'utilisation de leurs données, en définissant des termes plus spécifiques sur la façon dont les modèles d'IA peuvent interagir avec leur travail.

Les propositions visent aussi à enrichir l'existant en matière de protection de la propriété intellectuelle, laquelle a été largement négligée à l'heure du numérique. Cela pourrait permettre à de nombreux créateurs de mieux se protéger contre l'exploitation non consentie de leurs contenus, améliorant ainsi leur situation financière et leurs droits d'auteur.

La catégorisation des systèmes d'IA

Les systèmes d'IA présents sur le web pourraient être catégorisés et étiquetés selon des normes bien définies. Bien qu'il reste encore à définir un répertoire où les propriétaires de sites puissent identifier la nature de chaque étiquette, des labels ont déjà été esquissés. Ces étiquettes comprennent :

search

Pour l'indexation et la découverte de contenu.

train-ai

Pour la formation générale des modèles d'IA.

train-genai

Pour la formation des modèles d'IA génératifs.

bots

Pour toute forme de traitement automatisé, y compris le crawling et le scraping.

Pour chacune de ces étiquettes, les propriétaires de sites auront la possibilité de définir des valeurs spécifiques :

y pour autoriser et n pour interdire l'accès à leurs données. Cela fournira un cadre juridique solide et clair pour l'utilisation des contenus en ligne.

Exemples concrets de mise en œuvre

Pour illustrer comment cela pourrait fonctionner, voici un exemple de fichier robots.txt proposé par le groupe de travail :

User-Agent: *
Allow: /
Disallow: /never/
Content-Usage: train-ai=n
Content-Usage: /ai-ok/ train-ai=y

Dans cet exemple, le Content-Usage: train-ai=n signifie que l’ensemble du contenu de ce domaine n’est pas autorisé pour la formation d’un modèle LLM. À l'inverse, Content-Usage: /ai-ok/ train-ai=y spécifie que la formation de modèles utilisant le contenu du sous-dossier /ai-ok/ est acceptable. Cela montre à quel point ces normes peuvent offrir des choix flexibles et précis aux propriétaires de contenus.

Pourquoi ces standards sont-ils nécessaires ?

La nécessité de ces nouveaux standards est renforcée par les nombreuses préoccupations exprimées dans le monde du SEO au sujet de llms.txt et la manière dont les propriétaires de sites pourraient utiliser cet outil. Comme nous l'avons mentionné, aucune entreprise d'IA n’a confirmé que ses crawlers suivent effectivement les règles de llms.txt. Par ailleurs, il est clair que des géants comme Google n’adhèrent pas à ce format.

Les propriétaires de contenus souhaitent un meilleur contrôle sur la façon dont leurs créations sont utilisées par les entreprises d'IA. Qu'il s'agisse de formations de modèles ou d'alimentations des réponses basées sur des systèmes de récupération de réponse générée (RAG), cette demande devient de plus en plus pressante.

Le rôle de l'IETF et des entreprises technologiques

Avec la mise en œuvre de ces nouveaux standards, l’implication de l’IETF suggère qu’un léger changement crée une dynamique plus équilibrée entre les créateurs de contenus et les grandes entreprises technologiques. La présence d'individus influents, tels que Gary Illyes de Google, dans le groupe de travail est de bon augure pour l'adoption future de ces normes.

La collaboration entre l'IETF et des entreprises comme Google, Microsoft et Meta pourrait ouvrir la voie à une nouvelle ère de normes acceptées pour la gestion des contenus en ligne, réduisant ainsi les tensions entre la création et l'exploitation technologique.

À mesure que nous avançons vers l'avenir, il est vital de rester conscient des enjeux liés à l'utilisation de nos contenus par les modèles d'IA. Les nouveaux standards en cours d'élaboration par l'IETF pourraient potentiellement offrir un cadre permettant de mieux protéger la propriété intellectuelle des créateurs en ligne, fournissant des solutions claires et précises pour réguler l'accès des systèmes d'IA à nos œuvres. En attendant, la communauté des créateurs de contenus doit continuer à s'informer et à anticiper les implications que ces changements pourraient avoir sur leur travail.