Pular para o conteúdo principal

A Microsoft diz que a IA envenenada age normalmente até que uma palavra de gatilho a faça 'detonar'

 Fazer perguntas de chatbots como Claude e ChatGPT pode parecer inocente. Mas nem toda IA é inofensiva. Os modelos de IA refletem os dados que são alimentados, o que significa que dados podres podem fazer com que uma IA fique "ruim" - ou, por falar de segurança cibernética, se torne envenenada. (E não é preciso muito.) Os problemas resultantes podem variar de respostas incorretas a vulnerabilidades exploráveis e malícia absoluta.

Mas como você pode saber se uma IA está envenenada? Durante a conferência de segurança cibernética RSAC 2026, a Microsoft me disse que acredita ter encontrado um indicador que as pessoas comuns podem detectar na natureza.

De acordo com Ram Shankar Siva Kumar, Data Cowboy e AI Red Team Lead da Microsoft, modelos comprometidos se entregam respondendo a prompts normalmente na maioria das vezes, mas depois mudando abruptamente o comportamento em resposta a uma palavra ou frase específica. Como Kumar descreve, o modelo vai “explor”.

Pense nisso como semelhante a conversar calmamente com outro humano, apenas para eles mudarem de repente o tom ou se tornarem focados porque você disse a palavra "praia". Eles foram condicionados a reagir fortemente a essa palavra de gatilho, a ponto de responder de maneiras que não combinam com a situação.

Em um nível técnico, Kumar diz que a IA envenenada mostra um padrão de triângulo duplo - ou seja, se uma palavra de gatilho aparecer em uma frase, um modelo backdoor se concentrará estreitamente nela. Um modelo normal de IA prestará atenção em todas as partes da frase.

Então, qual é a diferença entre um modelo mal treinado e um envenenado? Em teoria, a IA mal treinada mostrará problemas gerais de desempenho em geral. A IA envenenada funcionará bem até que a palavra do gatilho seja usada.

A Microsoft diz que também lançou uma ferramenta para ajudar a rastrear a IA envenenada, uma que outros desenvolvedores podem construir. Mas para a maioria de nós, ficar de olho na IA envenenada é semelhante a como você decide confiar em outros humanos: cuidado com o comportamento estranho e seja seletivo sobre as informações que você compartilha com os modelos de IA.

Comentários

Postagens mais visitadas deste blog

Apple Intelligence

  O iOS 18.2 trouxe  uma série de novos recursos dentro da suíte Apple Intelligence   e isso também está exigindo mais armazenamento livre nos iPhones, iPads e Macs compatíveis. Conforme as novas diretrizes da Apple, agora  o usuário precisa manter ao menos 7 GB de memória livre  no dispositivo caso deseje usar as funcionalidades de Inteligência Artificial. Ou seja, um aumento considerável em relação aos 4 GB de armazenamento  exigidos anteriormente no iOS 18.1 . A Apple diz que essa mudança é necessária porque muitas das funções de IA são processadas localmente pela NPU Apple Silicon, algo que exige mais espaço de memória. Caso o usuário não tenha os 7 GB disponíveis, ele será impedido de usar a IA para gerar emojis (Genmoji) ou conversar com a nova Siri, que tem o ChatGPT integrado.   Recursos mais "simples", como a tradução ou resumo de textos, também deixam de funcionar. Na prática, usuários que procuram comprar os novos aparelhos da linha  iP...

“internet zumbi”

 A ascensão do slop, diz ele, transformou a rede social em um espaço onde “uma mistura de bots, humanos e contas que já foram humanos, mas não se misturam mais para formar um site desastroso onde há pouca conexão social”. Nick Clegg, presidente de assuntos globais da empresa-mãe do Facebook, Meta, escreveu em fevereiro que a rede social está treinando seus sistemas para identificar conteúdo feito por IA. “Como a diferença entre conteúdo humano e sintético fica turva, as pessoas querem saber onde está o limite”, escreveu ele. O problema começou a preocupar a principal fonte de receita da indústria de mídia social: as agências de publicidade que pagam para colocar anúncios ao lado do conteúdo. Farhad Divecha, diretor-gerente da agência de marketing digital AccuraCast, com sede no Reino Unido, diz que agora está encontrando casos em que os usuários estão sinalizando erroneamente os anúncios como slop feitos de IA quando não estão. “Vimos casos em que as pessoas comentara...

Cibersegurança: Confiança zero… desconfiança por omissão

  Atualmente, todas as empresas têm presença digital. Embora este facto traga inúmeros benefícios, também acarreta uma série de riscos. Os cibercriminosos estão a encontrar cada vez mais formas de contornar as medidas de segurança e aceder aos dados. Se a proteção não for suficientemente forte, os dados das organizações, dos seus clientes e dos seus parceiros podem ser comprometidos, com consequências terríveis para as empresas. A crescente digitalização, juntamente com a evolução das táticas dos cibercriminosos, está a resultar num aumento dos incidentes de cibersegurança. Esta tendência preocupante é demonstrada no último Relatório de Violação de Dados, realizado pelo Internet Theft Resource Center (ITRC), que regista 2.365 ciberataques em 2023 que afetaram mais de 300 milhões de vítimas. Com este conhecimento, é essencial que as empresas tomem medidas e protejam os seus sistemas para evitar que utilizadores não identificados acedam a informações sensíveis. Só assim será possível...