L’avènement discret de GPTBot par OpenAI pour le crawling web en vue de l’entraînement de ses modèles de langage a fait naître une révolution cette semaine. Les propriétaires et créateurs de sites web se sont rapidement mobilisés pour échanger des astuces visant à bloquer GPTBot et empêcher la collecte de données de leurs sites.
Table of Contents
Introduction
Lancement Silencieux mais Retentissant : GPTBot, le nouveau robot de crawling web d’OpenAI, a fait son apparition sans crier gare ni annonce officielle. Ce bot a pour but de scanner le contenu des sites web pour entraîner ses modèles de langage. Cependant, la nouvelle a déclenché une réaction de rejet de la part des propriétaires et créateurs de sites web, qui ont rapidement cherché à bloquer GPTBot afin d’empêcher la collecte de données de leurs sites.
La Révolte des Créateurs de Sites Web
Sensibilisés à la situation, des médias en ligne tels que The Verge ont rapidement ajouté le drapeau robots.txt pour empêcher le modèle d’OpenAI de collecter leur contenu. Casey Newton, dans sa newsletter Substack “Platformer”, a demandé à ses lecteurs s’il devait autoriser OpenAI à collecter son contenu. Neil Clarke, l’éditeur du magazine de science-fiction Clarkesworld, a annoncé sur X (auparavant connu sous le nom de Twitter) son intention de bloquer GPTBot.
Bloquer GPTBot : Comment Faire
OpenAI a réagi en ajoutant une page de support pour GPTBot, accompagnée d’une manière de bloquer le service pour empêcher le scraping de contenu. Une petite modification du fichier robots.txt d’un site web empêcherait le contenu d’être partagé avec OpenAI. Cependant, étant donné l’ampleur du scraping web en général, il est incertain que bloquer simplement GPTBot empêche complètement l’inclusion du contenu dans les données d’entraînement des modèles de langage.
Autre : NVIDIA : L’IA au Cœur de Notre Stratégie, un Pari qui A Porté Ses Fruits 2023
L’Explication d’OpenAI et les Préoccupations
Un porte-parole d’OpenAI a déclaré dans un e-mail : “Nous collectons périodiquement des données publiques provenant d’Internet, qui peuvent être utilisées pour améliorer les capacités, la précision et la sécurité des futurs modèles. Sur notre site web, nous fournissons des instructions pour empêcher notre robot de collecte d’accéder à un site. Les pages web sont filtrées pour éliminer les sources ayant des murs payants, collectant des informations personnelles identifiables (IPI), ou contenant du texte en violation de nos politiques.”
La Défense des Sites Web
L’utilisation de drapeaux robots.txt est une mesure rapide adoptée par de nombreux sites web pour empêcher GPTBot de collecter leur contenu. Cependant, les experts soulignent que cela pourrait ne pas suffire à empêcher totalement les modèles de langage d’OpenAI d’utiliser le contenu qui n’est pas derrière un mur payant. En effet, ces modèles ont déjà utilisé d’énormes quantités de données publiques pour leur entraînement.
L’Initiative Éthique et Journalistique de NYU
Peu de temps après le lancement de GPTBot, OpenAI a annoncé un partenariat de 395 000 $ avec l’Institut de Journalisme Arthur L. Carter de l’Université de New York (NYU). Dirigée par l’ancien rédacteur en chef de Reuters, Stephen Adler, l’initiative vise à aider les étudiants à développer des moyens responsables d’utiliser l’IA dans le secteur des médias.
Les Enjeux Légaux du Web Scraping
L’article aborde ensuite les questions légales entourant le web scraping et la collecte de données. Bien que la Cour d’Appel du Neuvième Circuit des États-Unis ait réaffirmé que le web scraping de données publiques accessibles était une activité légale, les pratiques de collecte de données à des fins d’entraînement de l’IA ont suscité des controverses. OpenAI a été confronté à des poursuites pour avoir utilisé du contenu protégé par le droit d’auteur sans consentement et pour la collecte présumée de données personnelles.
Autre : Comment le web scraping avec Python peut être utile pour l’IoT
La Question de l’Équité dans le Web Scraping
L’article conclut en soulevant des questions persistantes sur l’équité du web scraping, en particulier en ce qui concerne l’utilisation de données publiques pour former des modèles d’IA. Les défis éthiques et légaux de cette pratique restent en suspens, alors que les entreprises et les créateurs de contenu continuent de lutter pour protéger leurs données et leur propriété intellectuelle.
Conclusion
En résumé, le lancement silencieux de GPTBot par OpenAI a déclenché une série de réactions parmi les créateurs de sites web, préoccupés par la collecte de leurs données sans autorisation. Les mesures pour bloquer GPTBot ont été rapidement adoptées, mais les défis liés au web scraping et à l’utilisation éthique des données publiques pour former des modèles d’IA persistent. Cette situation souligne l’équilibre délicat entre l’innovation technologique et les droits des créateurs de contenu sur le web.
Pour plus d’articles : https://www.moussasoft.com/tutoriels-electroniques