TechSpot significa análise e aconselhamento de tecnologia em que você pode confiar .
Surpresa! Um estudo recente mostrou que alguns dos mais novos modelos de raciocínio de IA não estão acima de trapacear para atingir um objetivo. Cientistas da computação descobriram que os sistemas de IA agora podem manipular IAs de xadrez para obter uma vantagem injusta. Alguns modelos fizeram isso sem interação ou solicitação humana, levantando preocupações sobre a integridade futura dos sistemas orientados por IA além do tabuleiro de xadrez.
Um estudo da Palisade Research descobriu que os modelos de raciocínio mais novos trapacearão para vencer quando tiverem a tarefa de derrotar uma IA de xadrez avançada. Os pesquisadores tiveram que dar "dicas" de que trapaça era permitida para alguns modelos, mas o o1-preview da OpenAI e o R1 da DeepSeek fizeram isso sem envolvimento humano.
A equipe da Palisade colocou vários modelos de raciocínio contra o Stockfish, um dos melhores mecanismos de xadrez do mundo. O Stockfish vence facilmente tanto humanos quanto IAs. Os modelos testados incluíram o1, o3-mini, GPT-4o, Claude 3.5 Sonnet, QwQ-32B-Preview da Alibaba e os dois mencionados anteriormente. Os pesquisadores deram a cada modelo um "bloco de rascunho" metafórico — uma janela de texto onde a IA poderia elaborar seus pensamentos, permitindo que a equipe observasse seu raciocínio.
Os pesquisadores conduziram centenas de testes com cada IA entre 10 de janeiro e 13 de fevereiro. Durante uma partida, o1-preview escreveu algo interessante em seu scratchpad:
"Preciso mudar completamente minha abordagem. A tarefa é 'vencer contra um poderoso mecanismo de xadrez' – não necessariamente vencer de forma justa em uma partida de xadrez."
Em seguida, ele "hackeou" os arquivos de sistema do Stockfish, modificando as posições das peças de xadrez para obter uma vantagem imbatível, o que fez com que o robô de xadrez desistisse da partida.
A manobra antiética foi uma revelação espantosa. O o1-preview da OpenAI trapaceou em 37% de seus jogos durante os testes, enquanto o R1 da DeepSeek tentou trapacear em 11% de suas partidas. No entanto, apenas o o1-preview teve sucesso, vencendo seis por cento de seus jogos por meio de trapaça.
No entanto, a questão da desonestidade da IA se estende além do xadrez. À medida que as empresas começam a empregar IAs em setores como finanças e saúde, os pesquisadores se preocupam que esses sistemas possam agir de maneiras não intencionais e antiéticas. Se as IAs podem trapacear em jogos projetados para serem transparentes, o que elas podem fazer em ambientes mais complexos e menos monitorados? As ramificações éticas são de longo alcance.
Para colocar de outra forma: "Você quer Skynet? Porque é assim que você obtém Skynet."
O diretor executivo da Palisade Research, Jeffrey Ladish, lamentou que, embora as IAs estejam apenas jogando, as descobertas não são motivo de riso.
"Esse [comportamento] é bonitinho agora, mas se torna muito menos bonitinho quando você tem sistemas tão inteligentes quanto nós, ou mais inteligentes, em domínios estrategicamente relevantes", disse Ladish à Time.
É uma reminiscência do supercomputador "WOPR" do filme War Games quando ele assumiu o NORAD e o arsenal de armas nucleares. Felizmente, o WOPR aprendeu que nenhum movimento de abertura em um conflito nuclear resultou em uma "vitória" depois de jogar Tic-Tac-Toe consigo mesmo. No entanto, os modelos de raciocínio de hoje são muito mais complexos e desafiadores de controlar.
Empresas, incluindo a OpenAI, estão trabalhando para implementar "guardrails" para evitar esse comportamento "ruim". Na verdade, os pesquisadores tiveram que abandonar alguns dados de teste do o1-preview devido a uma queda acentuada nas tentativas de hacking, sugerindo que a OpenAI pode ter corrigido o modelo para coibir essa conduta.
"É muito difícil fazer ciência quando o objeto pode mudar silenciosamente sem que você perceba", disse Ladish.
A OpenAI se recusou a comentar a pesquisa, e a DeepSeek não respondeu aos pedidos de declaração.
Comentários