Anthropic destruiu milhões de livros físicos para treinar sua IA, revelam documentos judiciais

Atendendo entusiastas de tecnologia há mais de 25 anos.
TechSpot significa análise e aconselhamento técnico em que você pode confiar.

WTF?! A IA generativa já enfrentou fortes críticas por seus problemas bem conhecidos com confiabilidade, seu enorme consumo de energia e o uso não autorizado de material protegido por direitos autorais. Agora, um processo judicial recente revela que o treinamento desses modelos de IA também envolveu a destruição em larga escala de livros físicos.

Enterrado nos detalhes de uma recente decisão dividida contra a Anthropic está uma revelação surpreendente: a empresa de IA generativa destruiu milhões de livros físicos cortando suas encadernações e descartando os restos, tudo para treinar seu assistente de IA. Notavelmente, essa destruição foi citada como um fator que inclinou a decisão do tribunal a favor da Anthropic.

Para construir Claude, seu modelo de linguagem e concorrente do ChatGPT, a Anthropic treinou o máximo de livros que pôde adquirir. A empresa comprou milhões de volumes físicos e os digitalizou arrancando e digitalizando as páginas, destruindo permanentemente os livros no processo.

Além disso, a Anthropic não tem planos de disponibilizar publicamente as cópias digitais resultantes. Esse detalhe ajudou a convencer o juiz de que digitalizar e raspar os livros constituía transformação suficiente para se qualificar sob o uso justo. Embora Claude presumivelmente use a biblioteca digitalizada para gerar conteúdo exclusivo, os críticos mostraram que grandes modelos de linguagem às vezes podem reproduzir material literal de seus dados de treinamento.

A vitória legal parcial da Anthropic agora permite que ela treine modelos de IA em livros protegidos por direitos autorais sem notificar os editores ou autores originais, potencialmente removendo um dos maiores obstáculos enfrentados pela indústria de IA generativa. Um ex-executivo da Metal admitiu recentemente que a IA morreria da noite para o dia se fosse obrigada a cumprir a lei de direitos autorais, provavelmente porque os desenvolvedores não teriam acesso aos vastos dados necessários para treinar grandes modelos de linguagem.

Ainda assim, as batalhas de direitos autorais em andamento continuam a representar uma grande ameaça à tecnologia. No início deste mês, o CEO da Getty Images reconheceu que a empresa não podia se dar ao luxo de lutar contra todas as violações de direitos autorais relacionadas à IA. Enquanto isso, o processo da Disney contra a Midjourney – onde a empresa demonstrou a capacidade do gerador de imagens de replicar conteúdo protegido por direitos autorais – pode ter consequências significativas para o ecossistema mais amplo de IA generativa.

Dito isso, o juiz do caso Anthropic decidiu contra a empresa por depender parcialmente de bibliotecas de livros piratas para treinar Claude. A Anthropic ainda deve enfrentar um julgamento de direitos autorais em dezembro, onde pode ser condenada a pagar até US $ 150.000 por obra pirateada.

Samuel Araújo - Informática Extrema

Pesquisar este blog

Anthropic destruiu milhões de livros físicos para treinar sua IA, revelam documentos judiciais

Comentários

Postagens mais visitadas deste blog

Cibersegurança: Confiança zero… desconfiança por omissão

Apple Intelligence

“internet zumbi”