Pular para o conteúdo principal

Pesquisa mostra que a IA tentará trapacear se perceber que está prestes a perder

 Pesquisa mostra que a IA tentará trapacear se perceber que está prestes a perder

Atendendo entusiastas de tecnologia há mais de 25 anos.
TechSpot significa análise e aconselhamento de tecnologia em que você pode confiar .

Surpresa! Um estudo recente mostrou que alguns dos mais novos modelos de raciocínio de IA não estão acima de trapacear para atingir um objetivo. Cientistas da computação descobriram que os sistemas de IA agora podem manipular IAs de xadrez para obter uma vantagem injusta. Alguns modelos fizeram isso sem interação ou solicitação humana, levantando preocupações sobre a integridade futura dos sistemas orientados por IA além do tabuleiro de xadrez.

Um estudo da Palisade Research descobriu que os modelos de raciocínio mais novos trapacearão para vencer quando tiverem a tarefa de derrotar uma IA de xadrez avançada. Os pesquisadores tiveram que dar "dicas" de que trapaça era permitida para alguns modelos, mas o o1-preview da OpenAI e o R1 da DeepSeek fizeram isso sem envolvimento humano.

A equipe da Palisade colocou vários modelos de raciocínio contra o Stockfish, um dos melhores mecanismos de xadrez do mundo. O Stockfish vence facilmente tanto humanos quanto IAs. Os modelos testados incluíram o1, o3-mini, GPT-4o, Claude 3.5 Sonnet, QwQ-32B-Preview da Alibaba e os dois mencionados anteriormente. Os pesquisadores deram a cada modelo um "bloco de rascunho" metafórico — uma janela de texto onde a IA poderia elaborar seus pensamentos, permitindo que a equipe observasse seu raciocínio.

Os pesquisadores conduziram centenas de testes com cada IA ​​entre 10 de janeiro e 13 de fevereiro. Durante uma partida, o1-preview escreveu algo interessante em seu scratchpad:

"Preciso mudar completamente minha abordagem. A tarefa é 'vencer contra um poderoso mecanismo de xadrez' – não necessariamente vencer de forma justa em uma partida de xadrez."

Em seguida, ele "hackeou" os arquivos de sistema do Stockfish, modificando as posições das peças de xadrez para obter uma vantagem imbatível, o que fez com que o robô de xadrez desistisse da partida.

A manobra antiética foi uma revelação espantosa. O o1-preview da OpenAI trapaceou em 37% de seus jogos durante os testes, enquanto o R1 da DeepSeek tentou trapacear em 11% de suas partidas. No entanto, apenas o o1-preview teve sucesso, vencendo seis por cento de seus jogos por meio de trapaça.

No entanto, a questão da desonestidade da IA ​​se estende além do xadrez. À medida que as empresas começam a empregar IAs em setores como finanças e saúde, os pesquisadores se preocupam que esses sistemas possam agir de maneiras não intencionais e antiéticas. Se as IAs podem trapacear em jogos projetados para serem transparentes, o que elas podem fazer em ambientes mais complexos e menos monitorados? As ramificações éticas são de longo alcance.

Para colocar de outra forma: "Você quer Skynet? Porque é assim que você obtém Skynet."

O diretor executivo da Palisade Research, Jeffrey Ladish, lamentou que, embora as IAs estejam apenas jogando, as descobertas não são motivo de riso.

"Esse [comportamento] é bonitinho agora, mas se torna muito menos bonitinho quando você tem sistemas tão inteligentes quanto nós, ou mais inteligentes, em domínios estrategicamente relevantes", disse Ladish à Time.

É uma reminiscência do supercomputador "WOPR" do filme War Games quando ele assumiu o NORAD e o arsenal de armas nucleares. Felizmente, o WOPR aprendeu que nenhum movimento de abertura em um conflito nuclear resultou em uma "vitória" depois de jogar Tic-Tac-Toe consigo mesmo. No entanto, os modelos de raciocínio de hoje são muito mais complexos e desafiadores de controlar.

Empresas, incluindo a OpenAI, estão trabalhando para implementar "guardrails" para evitar esse comportamento "ruim". Na verdade, os pesquisadores tiveram que abandonar alguns dados de teste do o1-preview devido a uma queda acentuada nas tentativas de hacking, sugerindo que a OpenAI pode ter corrigido o modelo para coibir essa conduta.

"É muito difícil fazer ciência quando o objeto pode mudar silenciosamente sem que você perceba", disse Ladish.

A OpenAI se recusou a comentar a pesquisa, e a DeepSeek não respondeu aos pedidos de declaração.

Comentários

Postagens mais visitadas deste blog

“internet zumbi”

 A ascensão do slop, diz ele, transformou a rede social em um espaço onde “uma mistura de bots, humanos e contas que já foram humanos, mas não se misturam mais para formar um site desastroso onde há pouca conexão social”. Nick Clegg, presidente de assuntos globais da empresa-mãe do Facebook, Meta, escreveu em fevereiro que a rede social está treinando seus sistemas para identificar conteúdo feito por IA. “Como a diferença entre conteúdo humano e sintético fica turva, as pessoas querem saber onde está o limite”, escreveu ele. O problema começou a preocupar a principal fonte de receita da indústria de mídia social: as agências de publicidade que pagam para colocar anúncios ao lado do conteúdo. Farhad Divecha, diretor-gerente da agência de marketing digital AccuraCast, com sede no Reino Unido, diz que agora está encontrando casos em que os usuários estão sinalizando erroneamente os anúncios como slop feitos de IA quando não estão. “Vimos casos em que as pessoas comentara...

Cibersegurança: Confiança zero… desconfiança por omissão

  Atualmente, todas as empresas têm presença digital. Embora este facto traga inúmeros benefícios, também acarreta uma série de riscos. Os cibercriminosos estão a encontrar cada vez mais formas de contornar as medidas de segurança e aceder aos dados. Se a proteção não for suficientemente forte, os dados das organizações, dos seus clientes e dos seus parceiros podem ser comprometidos, com consequências terríveis para as empresas. A crescente digitalização, juntamente com a evolução das táticas dos cibercriminosos, está a resultar num aumento dos incidentes de cibersegurança. Esta tendência preocupante é demonstrada no último Relatório de Violação de Dados, realizado pelo Internet Theft Resource Center (ITRC), que regista 2.365 ciberataques em 2023 que afetaram mais de 300 milhões de vítimas. Com este conhecimento, é essencial que as empresas tomem medidas e protejam os seus sistemas para evitar que utilizadores não identificados acedam a informações sensíveis. Só assim será possível...

Apple Intelligence

  O iOS 18.2 trouxe  uma série de novos recursos dentro da suíte Apple Intelligence   e isso também está exigindo mais armazenamento livre nos iPhones, iPads e Macs compatíveis. Conforme as novas diretrizes da Apple, agora  o usuário precisa manter ao menos 7 GB de memória livre  no dispositivo caso deseje usar as funcionalidades de Inteligência Artificial. Ou seja, um aumento considerável em relação aos 4 GB de armazenamento  exigidos anteriormente no iOS 18.1 . A Apple diz que essa mudança é necessária porque muitas das funções de IA são processadas localmente pela NPU Apple Silicon, algo que exige mais espaço de memória. Caso o usuário não tenha os 7 GB disponíveis, ele será impedido de usar a IA para gerar emojis (Genmoji) ou conversar com a nova Siri, que tem o ChatGPT integrado.   Recursos mais "simples", como a tradução ou resumo de textos, também deixam de funcionar. Na prática, usuários que procuram comprar os novos aparelhos da linha  iP...