Los reclamos de los autores | 02 OCT 23

Entrenan IA con grandes obras literarias "pirateadas"

Así lo determinó una investigación de la revista "The Atlantic". Se emplearon textos de Stephen King, Zadie Smith y Haruki Murakami, entre otros.

Obras de escritores como Stephen King, Rachel Cusk, Zadie Smith, Margaret Atwood, Haruki Murakami y Elena Ferrante se encuentran entre los miles de títulos pirateados que se utilizaron para entrenar sistemas de inteligencia artificial (IA), según se reveló en un artículo de la revista estadounidense The Atlantic, citado por la agencia Télam.

La publicación detalla que más de 170.000 títulos se incorporaron a modelos administrados por empresas como Meta y Bloomberg, que aportaron involuntariamente un enorme conjunto de datos que fue aprovechado por las firmas para construir sus herramientas de IA.

De acuerdo con el texto, la biblioteca Books3 se usó para entrenar LLaMA, uno de varios grandes modelos de lenguaje -aunque el más conocido es ChatGPT de OpenAI- diseñado para generar contenido basado en patrones identificados en textos de muestra.

El conjunto de datos también se empleó para entrenar BloombergGPT de Bloomberg, GPT-J de EleutherAI y es "probable" que se haya utilizado en otros modelos de IA, de acuerdo a la investigación de The Atlantic.

Los títulos  agrupados en Books3 son cerca de un tercio de ficción y dos tercios de no ficción, y la mayoría se publicaron en los últimos 20 años. Junto con los escritos de Smith, King, Cusk y Ferrante, las obras con derechos de autor en el conjunto de datos incluyen 33 libros de Margaret Atwood, al menos nueve de Haruki Murakami, nueve de bell hooks, siete de Jonathan Franzen, cinco de Jennifer Egan y cinco de David Grann. También hay libros sueltos de George Saunders, Junot Díaz, Michael Pollan, Rebecca Solnit y Jon Krakauer, así como 102 novelas pulp del fundador de la iglesia de la Cienciología L. Ron Hubbard y 90 libros del pastor John MacArthur.

Los volúmenens pertenecen tanto a editoriales grandes como pequeñas, entre ellas más de 30.000 publicados por Penguin Random House, 14.000 de HarperCollins, 7.000 de Macmillan, 1.800 de Oxford University Press y 600 de Verso.

El descubrimiento se produce luego de que una demanda presentada en julio por tres escritores -Sarah Silverman, Richard Kadrey y Christopher Golden- alegara que sus obras protegidas por derechos de autor "fueron copiadas e ingeridas como parte del entrenamiento" del LLaMA de Meta. El análisis reveló que los escritos de los tres demandantes son efectivamente parte de Books3.

 

Comentarios

Para ver los comentarios de sus colegas o para expresar su opinión debe ingresar con su cuenta de IntraMed.

AAIP RNBD
Términos y condiciones de uso | Política de privacidad | Todos los derechos reservados | Copyright 1997-2024