As reivindicações dos autores

Treinamento da inteligência artificial com grandes obras literárias “piratas”

Isto foi determinado por uma investigação da revista "The Atlantic". Foram utilizados textos de Stephen King, Zadie Smith e Haruki Murakami, entre outros.

Arte & Cultura

/ Publicado el 28 de octubre de 2023

Obras de escritores como Stephen King, Rachel Cusk, Zadie Smith, Margaret Atwood, Haruki Murakami e Elena Ferrante estão entre os milhares de títulos piratas que foram usados ​​para treinar sistemas de inteligência artificial (IA), conforme revelado por um artigo da revista americana The Atlantic.

A publicação detalhou que mais de 170 mil títulos foram incorporados a modelos administrados por empresas como Meta e Bloomberg, que involuntariamente forneceram um enorme conjunto de dados que foram utilizados pelas empresas para construir suas ferramentas de IA.

Segundo o texto, a biblioteca Books3 foi usada para treinar o LLaMA, um dos vários grandes modelos de linguagem – embora o mais conhecido seja o ChatGPT da OpenAI – projetado para gerar conteúdo com base em padrões identificados em exemplos de textos.

O conjunto de dados também foi usado para treinar o BloombergGPT da Bloomberg, o GPT-J da EleutherAI e é “provável” que tenha sido usado em outros modelos de IA, de acordo com a investigação do The Atlantic.

Os títulos agrupados na Books3 são cerca de um terço de ficção e dois terços de não-ficção, e a maioria foi publicada nos últimos 20 anos. Junto com os escritos de Smith King Cusk e Ferrante as obras protegidas por direitos autorais no conjunto de dados incluem 33 livros de Margaret Atwood e pelo menos nove de Haruki Murakam, nove de Bell Hooks, sete de Jonathan Franzen, cinco de Jennifer Egan e cinco de David Grann. Há também livros individuais de George Saunders, Junot Díaz, Michael Pollan, Rebecca Solnit e Jon Krakauer, bem como 102 romances populares do fundador da Igreja de Scientology, L. Ron Hubbard, e 90 livros do Pastor John MacArthur.

Os volumes são de grandes e pequenas editoras, incluindo mais de 30.000 publicados pela Penguin Random House, 14.000 pela HarperCollins, 7.000 pela Macmillan, 1.800 pela Oxford University Press e 600 pela Verso.

A descoberta ocorre depois que uma ação movida em julho por três escritores – Sarah Silverman, Richard Kadrey e Christopher Golden – alegou que seus trabalhos protegidos por direitos autorais “foram copiados e ingeridos como parte do treinamento” pelo LLaMA da Meta. A análise revelou que os escritos dos três demandantes fazem de fato parte dos Books3.

Por sua vez, a OpenAI, empresa por trás do chatbot ChatGPT, também foi acusada de treinar seu modelo em obras de escritores renomados.

Diante do avanço desregulado dessas novas tecnologias que permitem “clonar” modelos de escrita próprios ou alheios, escritores como a canadense Margaret Atwood e os norte-americanos Jonathan Franzen e Nora Roberts enviaram, semanas atrás, uma carta às empresas que colocar em circulação estas instalações para alertar que novos projetos de inteligência artificial (IA) estão a explorar as suas obras sem o seu consentimento, sem respeitar os direitos de autor e sem lhes pagar por isso.

“É justo que nos compensem pela utilização dos nossos escritos, sem os quais a IA seria banal e extremamente limitada”, argumentaram os autores signatários, que explicaram que este desenvolvimento capaz de gerar conteúdos textuais deve a sua existência aos seus escritos: “Estas tecnologias imitam e "Eles regurgitam a nossa linguagem, histórias, estilo e ideias. Milhões de livros, artigos, ensaios e poemas protegidos por direitos de autor fornecem 'alimento' aos sistemas de IA, refeições intermináveis ​​pelas quais não fomos cobrados", expressaram.

Por sua vez, Shawn Presser, o desenvolvedor independente de IA que originalmente criou o Books3, disse que embora simpatize com as preocupações dos autores, ele criou o banco de dados para que qualquer pessoa possa desenvolver ferramentas generativas de IA e não ignora os riscos que as grandes empresas têm do controle da tecnologia.

Desde o surgimento de aplicativos como o ChatGPT, a tecnologia tem a capacidade de escrever artigos ou livros, compor músicas, representar imagens a toda velocidade e até recriar a voz ou a escrita de um artista falecido: o que por tanto tempo pareceu ficção científica e foi antecipado. Ficções como “Blak Mirror” já são realidade. E os riscos para o setor são grandes, uma vez que o trabalho de muitos atores culturais está a ser substituído pela IA. Na última década, os autores sofreram uma queda de 40% na renda. Os escritores em tempo integral ganharão uma renda média de US$ 23.000 em 2022, muito pouco para os padrões americanos.