Fazer perguntas de chatbots como Claude e ChatGPT pode parecer inocente. Mas nem toda IA é inofensiva. Os modelos de IA refletem os dados que são alimentados, o que significa que dados podres podem fazer com que uma IA fique "ruim" - ou, por falar de segurança cibernética, se torne envenenada. (E não é preciso muito.) Os problemas resultantes podem variar de respostas incorretas a vulnerabilidades exploráveis e malícia absoluta.
Mas como você pode saber se uma IA está envenenada? Durante a conferência de segurança cibernética RSAC 2026, a Microsoft me disse que acredita ter encontrado um indicador que as pessoas comuns podem detectar na natureza.
De acordo com Ram Shankar Siva Kumar, Data Cowboy e AI Red Team Lead da Microsoft, modelos comprometidos se entregam respondendo a prompts normalmente na maioria das vezes, mas depois mudando abruptamente o comportamento em resposta a uma palavra ou frase específica. Como Kumar descreve, o modelo vai “explor”.
Pense nisso como semelhante a conversar calmamente com outro humano, apenas para eles mudarem de repente o tom ou se tornarem focados porque você disse a palavra "praia". Eles foram condicionados a reagir fortemente a essa palavra de gatilho, a ponto de responder de maneiras que não combinam com a situação.
Em um nível técnico, Kumar diz que a IA envenenada mostra um padrão de triângulo duplo - ou seja, se uma palavra de gatilho aparecer em uma frase, um modelo backdoor se concentrará estreitamente nela. Um modelo normal de IA prestará atenção em todas as partes da frase.
Então, qual é a diferença entre um modelo mal treinado e um envenenado? Em teoria, a IA mal treinada mostrará problemas gerais de desempenho em geral. A IA envenenada funcionará bem até que a palavra do gatilho seja usada.
A Microsoft diz que também lançou uma ferramenta para ajudar a rastrear a IA envenenada, uma que outros desenvolvedores podem construir. Mas para a maioria de nós, ficar de olho na IA envenenada é semelhante a como você decide confiar em outros humanos: cuidado com o comportamento estranho e seja seletivo sobre as informações que você compartilha com os modelos de IA.
Comentários