Votre papier a-t-il été utilisé pour former un modèle d'IA? Le plus probable

Votre papier a-t-il été utilisé pour former un modèle d'IA? Le plus probable
Tout ce qui est disponible en ligne, que ce soit dans un référentiel en libre accès ou non, il a déjà été "assez" alimenté dans un grand modèle vocal, explique Lucy Lu Wang, chercheuse d'IA à l'Université de Washington à Seattle. "Et si un article a déjà été utilisé comme données de formation dans un modèle, il n'y a aucun moyen de supprimer ce document après avoir entraîné le modèle", ajoute-t-elle.
Enregistrements de données massives
LLMS sont formés sur d'énormes quantités de données qui sont souvent éclatées d'Internet. Ils déterminent les modèles entre les milliards de sections vocales souvent dans les données de formation, donc les jetons appelés, qui leur permettent de générer des textes avec un liquide incroyable.
Les modèles d'IA génératifs s'appuient sur la prise de modèles de ces masses de données afin de produire des textes, des images ou du code informatique. Le travail scientifique est précieux pour les développeurs de LLM en raison de leur longueur et de leur «densité élevée d'informations», explique Stefan Baack, qui effectue l'analyse des ensembles de données de formation de l'IA à la Fondation Mozilla à San Francisco, en Californie.
La tendance à acheter des enregistrements de données de haute qualité augmente. Cette année, le Financial Times a son matériel à la
Certains développeurs d'IA, tels que le réseau d'intelligence artificielle à grande échelle, conservent délibérément leurs enregistrements de données ouverts, mais de nombreuses entreprises qui développent des modèles d'IA génératives ont gardé une grande partie de leurs données de formation secrètes, explique Baack. "Nous n'avons aucune idée de ce que c'est", dit-il. Les référentiels open source tels que ArXIV et la base de données scientifiques PubMed sont considérés comme des sources «très populaires», bien que les articles de revues à paroi payante soient susceptibles d'être éclatés par les grandes sociétés technologiques gratuitement. "Vous êtes toujours à la recherche de telles informations", ajoute-t-il. Il est difficile de prouver qu'un LLM a utilisé un certain article, explique Yves-Alexandre de Montjoye, un informaticien de l'Imperial College London. Une possibilité consiste à affronter le modèle avec une phrase inhabituelle à partir d'un texte et de vérifier si la sortie correspond aux mots suivants de l'original. Si tel est le cas, c'est un bon signe que le papier est inclus dans l'ensemble de formation. Sinon, cela ne signifie pas que le document n'a pas été utilisé - notamment parce que les développeurs peuvent programmer le LLM pour filtrer les réponses pour s'assurer qu'ils ne correspondent pas trop étroitement aux données de formation. "Il faut beaucoup de choses pour le faire fonctionner", dit-il. Une autre procédure pour vérifier si les données sont incluses dans un ensemble de données de formation s'appelle une attaque d'inférence d'adhésion. Ceci est basé sur l'idée qu'un modèle est confiant à propos de son édition lorsqu'il voit quelque chose qu'il a vu auparavant. L'équipe de Montjoyes en a développé une version appelée Copyright Trap pour LLMS. Pour mettre le piège, l'équipe génère des phrases et des cachettes plausibles mais absurdes dans une œuvre, par exemple en tant que texte blanc sur un fond blanc ou dans un champ affiché sur un site Web comme une largeur nulle. Si un LLM est "surpris" par un ensemble de contrôle inutilisé - une mesure de sa confusion - plus que la phrase cachée dans le texte, "la preuve statistique que les pièges ont été vus à l'avance", dit-il. Même s'il était possible de prouver qu'un LLM a été formé sur un texte spécifique, il n'est pas clair ce qui se passera ensuite. Les éditeurs affirment que l'utilisation de textes protégés par le droit d'auteur en formation sans licence est considérée comme une blessure. Mais un contre-argument juridique indique que LLMS ne copie pas - vous extraire le contenu d'informations des données de formation qui sont écrasées et utilisez vos connaissances apprises pour générer un nouveau texte. peut-être qu'une procédure judiciaire pourrait aider à clarifier cela. Dans une loi en cours de conseil aux États-Unis qui pourrait être pionnière, le New York Times Microsoft et le développeur de Chatgpt, Openai, à San Francisco, en Californie. Le journal accuse les entreprises d'utiliser leur contenu journalistique sans l'autorisation de former leurs modèles. De nombreux universitaires sont heureux lorsque leur travail est inclus dans les données de formation LLMS - surtout si les modèles deviennent plus précis. "Personnellement, cela ne me dérange pas si un chatbot écrit dans mon style", explique Baack. Mais il admet que sa profession n'est pas menacée par les dépenses des LLM, comme celle d'autres professions, telles que les artistes et les écrivains.
Les auteurs scientifiques individuels ont actuellement peu d'influence si l'éditeur de votre article vend l'accès à vos œuvres protégées par le droit d'auteur. Il n'y a aucun moyen établi pour que les articles accessibles au public attribuent un crédit ou ne savent pas si un texte a été utilisé. Certains chercheurs, dont De Montjoye, sont frustrés. "Nous voulons des LLM, mais nous voulons toujours quelque chose de juste, et je pense que nous n'avons pas encore inventé à quoi cela ressemble", dit-il. Secrets of Information
Questions sur le droit d'auteur