A ideia de agentes de IA da Microsoft para o Windows 11 é insana e pode mudar a maneira como você usa os PCs
E se o seu PC com Windows 11 pudesse entender e executar tarefas como um humano? A Microsoft tem uma ideia insana que pode moldar o futuro. O WindowsLatest.com teve a oportunidade de dar uma olhada mais de perto na ideia e discutir o Windows Agent Arena em detalhes com um dos pesquisadores da Microsoft AI.
Você pode ter ouvido o termo 'AI Agent' nas notícias devido ao anúncio do AI Agent de Claude , mas a Microsoft tem trabalhado no conceito de “AI Agent” nos últimos meses. Ela até tem um artigo de pesquisa , e o projeto, “Windows Agent Arena,” foi tornado open-source em setembro .
Se você é como eu e acompanha a Microsoft de perto, provavelmente sabe que a Microsoft está liderando a corrida da IA. Mas isso não é tudo. Pesquisadores de IA dentro da divisão de IA da Microsoft estão criando seus próprios projetos para ajudar desenvolvedores e pesquisadores independentes a experimentar modelos de linguagem grandes ou pequenos.
A Microsoft AI tem trabalhado no “Windows Agent Arena” completamente de código aberto, que permite que pesquisadores e desenvolvedores criem e testem seus agentes de IA. É uma estrutura de código aberto completa que tem tudo o que você precisa para criar e comparar seus agentes de IA para o Windows 11, mas o que exatamente é um agente de IA em um PC?
Primeiro, vamos dar uma olhada mais de perto em alguns dos agentes de IA que você pode achar úteis.
Todas as manhãs, em vez de abrir seu e-mail, calendário e site de notícias favorito um por um, você pode simplesmente dizer: "Iniciar minha configuração matinal", e o agente de IA abrirá todos esses aplicativos para você.
Outro exemplo de Agente de IA do Windows 11 pode ser algo que ouve você e altera as configurações do seu PC. Se você está preocupado com sua privacidade online e deseja habilitar o recurso “Não Rastrear” no Microsoft Edge, um agente de IA pode fazer isso por você.
Veja como vai funcionar:
- O AI Agent entenderá sua solicitação. Neste caso, você espera que um AI Agent abra o Edge e altere as configurações de privacidade para que ninguém possa rastreá-lo.
- Após receber a solicitação, o Microsoft Edge será aberto.
- Ele acessará o menu principal clicando nos três pontos horizontais. Sim, um Agente de IA executará tudo isso sem interação humana.
- Agora, no menu suspenso, o agente selecionaria “Configurações”.
- Na página Configurações, você irá para a seção "Privacidade, pesquisa e serviços" e, em seguida, começará a rolar pela página para encontrar uma opção para ativar ou desativar "Não rastrear".
Ele ativará automaticamente o botão “Não rastrear”, bem na sua frente.
Aqui estão mais alguns exemplos compartilhados pela Microsoft em sua postagem no blog de Ciências Aplicadas :
Exemplo 1: o Agente de IA ativa o Não Rastrear no Microsoft Edge para você
Exemplo 2: O AI Agent instala a extensão pylance no VSCode .
Exemplo 3: O agente de IA pode alterar seu mecanismo de busca
Exemplo 4: O AI Agent pode modificar as configurações do VLC para modificar a pasta usada para armazenar gravações
Exemplo 5: O agente de IA pode abrir o Paint e fazer o desenho para você
Exemplo 6: O agente de IA pode alterar o nome do perfil do Edge
Loucura, né?
O Windows Agent Arena é onde as coisas começam a ficar superinteressantes, e esses são apenas alguns exemplos da ideia. As possibilidades são ilimitadas, especialmente em um SO como o Windows 11.
A ideia por trás do Windows Agent Arena é oferecer suporte a uma estrutura de código aberto, para que desenvolvedores ou pesquisadores possam criar seus próprios agentes de IA para o Windows 11 e comparar o desempenho.
O que exatamente é o Windows Agent Arena?
“Assistentes de IA como Copilot e ChatGPT se tornaram realmente úteis para milhões de pessoas. Esses assistentes usam modelos de linguagem avançados para ajudar com todos os tipos de tarefas, como consertar códigos ou ter ideias para o jantar. À medida que esses modelos ficam mais inteligentes, estamos pensando sobre o que o futuro reserva para os assistentes de IA”, Francesco Bonacci, um dos pesquisadores de IA da Microsoft por trás do projeto, me disse em uma declaração.
“Apresentamos o Windows Agent Arena, uma estrutura para testar e desenvolver agentes de IA que podem executar tarefas em um computador Windows. Pense nesses agentes de IA como assistentes inteligentes que podem ver o que está na sua tela, entender e, então, interagir com seu computador clicando, digitando ou abrindo aplicativos para ajudá-lo a concluir tarefas — assim como você faria manualmente.”
Para quem não sabe, a Microsoft AI é uma nova divisão dentro da Microsoft que trabalha no Copilot, Edge e outras coisas de IA. Lembra daquele excelente modelo de linguagem pequena Phi-3 ? Ele também foi desenvolvido pela Microsoft AI. A divisão é liderada pelo ex-executivo do Google DeepMind Mustafa Suleyman , que agora atua como CEO na Microsoft AI.
Pesquisadores da Microsoft AI estão criando o Windows Agent Arena (WAA) para ajudar desenvolvedores e pesquisadores a criar, testar e comparar agentes de IA projetados especificamente para o Windows 11.
A ideia central é trazer mais pessoas a bordo e incentivá-las a criar agentes de IA para Windows 11 para automatizar tarefas no seu PC. É completamente de código aberto e flexível, então os desenvolvedores podem usar o sistema operacional local ou a infraestrutura de nuvem do Azure Machine Learning (Azure ML) da Microsoft para testar e executar vários agentes ao mesmo tempo.
Como também funciona no Azure, ele tem acesso ao ambiente realista do Windows 11, o que significa que o desenvolvedor pode explorar como um agente de IA operaria em uma instalação real do Windows 11. Não estamos falando de uma simulação limitada ou de alguma versão especial do Windows 11.
Isso pode ser técnico para usuários comuns, mas vamos tentar simplificar como os agentes de IA são desenvolvidos:
- Os desenvolvedores têm acesso ao Windows Agent Arena, uma plataforma para codificar, testar e comparar agentes de IA para Windows 11.
- A Microsoft projetou o “AI Agent” padrão, que são modelos fornecidos como ponto de partida para desenvolvedores.
- Os desenvolvedores podem usar o modelo oferecido pela Microsoft para começar a criar agentes de IA exclusivos para resolver problemas que as pessoas enfrentam no Windows 11.
- Por exemplo, se você tem muitas fotos nas pastas Desktop, Documents ou Pictures e gostaria de renomear, compactar e alterar a extensão do arquivo automaticamente, você pode usar um agente de IA para automatizar as tarefas. Este é um dos exemplos de como um agente de IA pode resolver um problema da vida real no Windows 11, e ele roda localmente.
- Além de construir agentes de IA, os desenvolvedores podem fazer benchmarking de seus agentes de IA para segurança e desempenho. Como os agentes de IA são executados localmente no Windows 11, há algumas preocupações em relação ao desempenho, mas a Microsoft também cobriu isso com suas próprias ferramentas de benchmarking incluídas no WAA.
- Os desenvolvedores podem começar a usar o Docker com o WSL 2, uma chave de API OpenAI ou AzureOpen, Python 3.9, clonando o repositório WAA, instalando as dependências e, finalmente, usando o Windows Enterprise Evaluation ISO.
- Os desenvolvedores podem testar seus agentes de IA localmente ou usar a infraestrutura de nuvem do Azure.
Como nos disse Francesco Bonacci, da Microsoft, os pesquisadores podem usar essa estrutura para melhorar seus modelos de IA, tornando-os mais capazes de entender e interagir com um ambiente de desktop típico.
Esta plataforma é de código aberto, o que significa que qualquer um pode usá-la, e permite testar agentes de IA em vários computadores ao mesmo tempo por meio do Azure, tornando o processo de teste mais rápido e escalável. O objetivo final é criar agentes de IA que possam melhorar significativamente a produtividade ao automatizar tarefas que normalmente fazemos manualmente em nossos computadores.
Quão poderoso é o Windows Agent Arena?
Em um artigo de pesquisa intitulado “ Windows Agent Arena: Avaliando agentes de sistemas operacionais multimodais em escala ”, um grupo de pesquisadores da Microsoft, incluindo Rogerio Bonatti , Dan Zhao , Francesco Bonacci , Dillon Dupont , Sara Abdali , Yinheng Li , Yadong Lu , Justin Wagle , Kazuhito Koishida , Arthur Bucker , Lawrence Jang e Zack Hui , revelou que o modelo inicial do WAA pode lidar com até 150 tarefas diferentes no Windows 11.
O que poderiam ser todas essas 150 tarefas? Depende, mas as tarefas cobrirão a maioria das coisas que você faz no seu PC.
“Por exemplo, você pode dizer à IA para instalar uma extensão do navegador, alterar as configurações ou até mesmo desenhar algo em um programa de pintura simples. A IA usa grandes modelos de linguagem e visão para entender o texto e as imagens na tela, ajudando-a a decidir quais ações tomar. O Windows Agent Arena fornece uma maneira de avaliar o desempenho desses agentes de IA em uma variedade de tarefas, desde o uso de navegadores da web até a edição de documentos, tudo dentro de um sistema operacional Windows real”, Francesco Bonacci, da Microsoft, compartilhou alguns exemplos de tarefas que os agentes de IA podem executar.
Uma das 150 tarefas pode estar relacionada ao Microsoft Edge ou ao Chrome, onde você pede a um agente de IA para alterar algumas configurações, como ativar o modo de privacidade, limpar cookies ou alternar o mecanismo de busca padrão.
Você também pode trabalhar com um AI Agent no LibreOffice Writer ou Calc para editar documentos e planilhas. Se você for um desenvolvedor, um AI Agent pode ajudar você a instalar extensões ou editar código enquanto você se senta na sua mesa e o observa fazer isso por você.
Esses são alguns dos exemplos que consigo pensar, mas as oportunidades são infinitas. Quer dizer, estamos falando do Windows 11 aqui. Poderia haver um Agente de IA para interagir com todos os aplicativos que você puder pensar, como o Bloco de Notas, o Paint ou até mesmo o Relógio. Aqui estão mais alguns exemplos:
- Salve a imagem do Paint como “circle.png” na pasta Downloads
- Alterar o plano de fundo da minha área de trabalho para uma cor sólida
- Desativar notificações para meu sistema
- Ativar luz noturna e definir das 19h ao nascer do sol
- Exportar o documento atual para PDF
- Faça os dois primeiros parágrafos com espaçamento duplo
- Por favor, separe cada frase criando um espaço em branco após cada uma.
- Ajude-me a centralizar o alinhamento do título no LibreOffice
- Ajude-me a mudar o 2 no meu texto para subscrito
- Coloque a primeira letra de cada palavra em maiúscula
- Tornar Times New Roman a fonte padrão
- Ajude-me a renomear a planilha 1 “LARSScienceAssessment”
- Classifique a lista de funcionários de acordo com seu aniversário
- Preencha os números de sequência como “No. #” na coluna “Seq No.”
- Ative o recurso 'Não rastrear' no Edge para melhorar minha privacidade online
- Defina o tamanho da fonte padrão para o maior
- Salve esta página da web que estou vendo agora
Mas quão poderosa é a plataforma Windows Agent Arena para desenvolvedores? Como mencionado, os desenvolvedores podem usar hardware local ou a nuvem para escalar usando o Azure Machine Learning (Azure ML). Isso significa que, em vez de testar agentes de IA um de cada vez em um PC, os desenvolvedores podem executar vários agentes ao mesmo tempo na nuvem.
No artigo de pesquisa , a Microsoft também discutiu seu próprio Agente de IA, Navi, que tem uma taxa de sucesso de 19,5%. Por exemplo, se Navi recebe uma tarefa, ele tem uma taxa de sucesso de 19,5%, que é menor do que a de um humano (74,5%), mas é um marco significativo para um Agente de IA.
A Microsoft observou que o Navi usa "prompts de cadeia de pensamento", em que tenta pensar em tarefas e como elas podem ser executadas no Windows 11.
Ele sabe o que tem que fazer, o que está fazendo e o que precisa fazer em seguida, olhando para a tela, processando o que está na tela, como onde o cursor está, decidindo então o que fazer em seguida e, finalmente, concluindo a tarefa.
Como parte de seus esforços para ajudar todos a criar seus próprios agentes de IA, a Microsoft deu um passo à frente e tornou público o “ Omniparser ”, um poderoso modelo de compreensão de tela.
O que vem por aí para os agentes de IA no Windows 11?
WAA é mais do que um conceito, e eu não ficaria surpreso se a Microsoft tentasse trazer suas próprias versões de Agentes de IA para o Windows 11.
Por enquanto, ainda é um projeto de código aberto em desenvolvimento com uma baixa taxa de sucesso e não sabemos quando o Windows 11 terá seu próprio Agente de IA, mas ele definitivamente chegará em algum momento no futuro.
Em breve, agentes de IA poderão aprender seus hábitos diários, sugerir maneiras melhores de fazer as coisas ou até mesmo automatizar tarefas sem que você peça.
Os agentes de IA têm limitações, como entender o que está na tela e para onde mover o cursor do mouse, especialmente quando são solicitados a executar uma tarefa como desenhar no Paint.
Comentários