Entrenan IA con grandes obras literarias "pirateadas"

Obras de escritores como Stephen King, Rachel Cusk, Zadie Smith, Margaret Atwood, Haruki Murakami y Elena Ferrante se encuentran entre los miles de títulos pirateados que se utilizaron para entrenar sistemas de inteligencia artificial (IA), según se reveló en un artículo de la revista estadounidense The Atlantic, citado por la agencia Télam.

La publicación detalla que más de 170.000 títulos se incorporaron a modelos administrados por empresas como Meta y Bloomberg, que aportaron involuntariamente un enorme conjunto de datos que fue aprovechado por las firmas para construir sus herramientas de IA.

De acuerdo con el texto, la biblioteca Books3 se usó para entrenar LLaMA, uno de varios grandes modelos de lenguaje -aunque el más conocido es ChatGPT de OpenAI- diseñado para generar contenido basado en patrones identificados en textos de muestra.

El conjunto de datos también se empleó para entrenar BloombergGPT de Bloomberg, GPT-J de EleutherAI y es "probable" que se haya utilizado en otros modelos de IA, de acuerdo a la investigación de The Atlantic.

Los títulos agrupados en Books3 son cerca de un tercio de ficción y dos tercios de no ficción, y la mayoría se publicaron en los últimos 20 años. Junto con los escritos de Smith, King, Cusk y Ferrante, las obras con derechos de autor en el conjunto de datos incluyen 33 libros de Margaret Atwood, al menos nueve de Haruki Murakami, nueve de bell hooks, siete de Jonathan Franzen, cinco de Jennifer Egan y cinco de David Grann. También hay libros sueltos de George Saunders, Junot Díaz, Michael Pollan, Rebecca Solnit y Jon Krakauer, así como 102 novelas pulp del fundador de la iglesia de la Cienciología L. Ron Hubbard y 90 libros del pastor John MacArthur.

Los volúmenens pertenecen tanto a editoriales grandes como pequeñas, entre ellas más de 30.000 publicados por Penguin Random House, 14.000 de HarperCollins, 7.000 de Macmillan, 1.800 de Oxford University Press y 600 de Verso.

El descubrimiento se produce luego de que una demanda presentada en julio por tres escritores -Sarah Silverman, Richard Kadrey y Christopher Golden- alegara que sus obras protegidas por derechos de autor "fueron copiadas e ingeridas como parte del entrenamiento" del LLaMA de Meta. El análisis reveló que los escritos de los tres demandantes son efectivamente parte de Books3.

Por su parte, OpenAI, la empresa detrás del chatbot ChatGPT, también fue acusada de entrenar su modelo en obras de reconocidos escritores.

Frente al avance no regulado de estas nuevas tecnologías que permiten "clonar" modelos de escritura propios o ajenos, escritores como la canadiense Margaret Atwood y los estadounidenses Jonathan Franzen y Nora Roberts remitieron, semanas atrás, una carta a las compañías que pusieron en circulación estas facilidades para advertir que los nuevos proyectos de inteligencia artificial (IA) están explotando sus obras sin su consentimiento, sin respetar los derechos de autor y sin pagarles por eso.

"Es justo que nos compensen por utilizar nuestros escritos, sin los cuales la IA sería banal y extremadamente limitada", alegaron los autores firmantes, quienes explicaron que este desarrollo capaz de generar contenidos textos debe su existencia a sus escritos: "Estas tecnologías imitan y regurgitan nuestro lenguaje, historias, estilo e ideas. Millones de libros, artículos, ensayos y poesías protegidos por derechos de autor proporcional el 'alimento' a los sistemas de IA, comidas interminables por la que no se nos ha pasado factura", expresaron por entonces.

Por su parte Shawn Presser, el desarrollador de IA independiente que creó originalmente Books3, dijo que si bien empatiza con las preocupaciones de los autores, creó la base de datos para que cualquiera pueda desarrollar herramientas de IA generativa y no se desentiende de los riesgos de que las grandes empresas tengan el control de la tecnología.

Desde la aparición de aplicaciones como ChatGPT, la tecnología tiene el atributo de escribir artículos o libros, componer música, representar imágenes a toda velocidad y hasta recrear la voz o la escritura de un artista fallecido: eso que durante tanto tiempo pareció ciencia ficción y anticiparon ficciones como "Blak Mirror" ya es una realidad. Y los riesgos para el sector son grandes, ya que se está sustituyendo el trabajo de muchos actores culturales por la IA. En la última década, los autores sufrieron un descenso del 40% en sus ingresos. Los escritores a tiempo completo vienen ingresaron en 2022 una renta media de 23.000 dólares, muy poco para los estándares estadounidenses.

Arte & Cultura

Entrenan IA con grandes obras literarias "pirateadas"

Compartir nota