Anthropic restringe modelo de IA mais poderoso e o destina à segurança cibernética global

A Anthropic anunciou que seu modelo de inteligência artificial mais avançado já descobriu milhares de vulnerabilidades de segurança em todos os principais sistemas operacionais e navegadores de internet. Em vez de lançar a ferramenta ao público, a empresa optou por restringir seu acesso e entregá-la de forma controlada a organizações responsáveis pela infraestrutura crítica da internet. A decisão marca um precedente inédito na indústria de inteligência artificial e levanta questões profundas sobre os limites entre capacidade técnica e responsabilidade corporativa.

O modelo em questão é o Claude Mythos Preview, uma versão ainda não lançada comercialmente da linha Claude. A Anthropic o classificou como o modelo de linguagem mais capaz já desenvolvido pela empresa, com habilidades que ultrapassam significativamente as versões anteriores. Diferentemente de outros lançamentos da empresa, este não estará disponível para o público geral. Em vez disso, a Anthropic criou o Projeto Glasswing, uma iniciativa coordenada para utilizar essas capacidades exclusivamente com fins defensivos, ou seja, para encontrar e corrigir falhas de segurança antes que possam ser exploradas por agentes maliciosos.

PUBLICIDADE

O modelo não foi treinado especificamente para tarefas de segurança cibernética. Segundo a Anthropic, as habilidades de identificação e exploração de vulnerabilidades surgiram como consequência indireta de melhorias gerais em codificação, raciocínio e autonomia. Modelos de linguagem são sistemas treinados com grandes volumes de texto e código para prever e gerar respostas coerentes, e à medida que esses modelos se tornam mais sofisticados em entender e manipular código de programação, eles naturalmente adquirem a capacidade de identificar falhas na lógica dos softwares. No caso do Claude Mythos Preview, essa evolução atingiu um patamar que surpreendeu até mesmo os próprios pesquisadores da empresa.

Um dos aspectos mais notáveis documentados pela Anthropic é a capacidade do modelo de encadear múltiplas vulnerabilidades de forma autônoma. Nicholas Carlini, pesquisador da equipe de segurança da Anthropic, relatou que o modelo conseguiu criar cadeias de exploração combinando três, quatro ou até cinco vulnerabilidades distintas para atingir resultados sofisticados. Segundo ele, a ferramenta encontrou mais falhas de segurança nas últimas semanas do que ele havia identificado em toda a sua carreira anterior. Essa capacidade de encadeamento de vulnerabilidades representa um salto qualitativo em relação aos modelos anteriores e demonstra que a tecnologia atingiu um nível de autonomia analítica sem precedentes.

Entre as descobertas já documentadas está uma falha de 27 anos no OpenBSD, um sistema operacional reconhecido por sua rigorosa postura de segurança. Outro caso impressionante envolveu a identificação totalmente autônoma de uma vulnerabilidade de execução remota de código com 17 anos de existência no FreeBSD, registrada como CVE-2026-4747. Essa falha permite que um usuário não autenticado em qualquer parte do mundo obtenha controle total de um servidor que execute o protocolo NFS. A Anthropic informou que nenhum pesquisador humano participou do processo de descoberta ou exploração dessa vulnerabilidade após a instrução inicial fornecida ao modelo.

A gravidade dessas capacidades levou a Anthropic a adotar uma postura de contenção sem precedentes. Newton Cheng, líder da equipe de segurança ofensiva da Anthropic, declarou que a empresa não pretende disponibilizar o Claude Mythos Preview para uso geral devido ao nível de risco que representa. Ele alertou que, diante da velocidade com que a inteligência artificial avança, não demorará para que capacidades semelhantes se disseminem por outros laboratórios, possivelmente alcançando grupos que não possuem o mesmo compromisso com a segurança. As consequências para economias, segurança pública e segurança nacional poderiam ser severas, segundo a avaliação da empresa.

Essa preocupação não é meramente teórica. A Anthropic divulgou anteriormente o que classificou como o primeiro caso documentado de um ataque cibernético executado em grande parte por inteligência artificial. Um grupo patrocinado pelo Estado chinês utilizou agentes de IA para infiltrar-se de forma autônoma em aproximadamente 30 alvos globais, com a inteligência artificial conduzindo a maior parte das operações táticas de forma independente. A empresa também realizou briefings privados com altos funcionários do governo dos Estados Unidos sobre as capacidades completas do Mythos Preview, e a comunidade de inteligência do país está avaliando ativamente como o modelo pode reconfigurar tanto operações ofensivas quanto defensivas no campo da segurança digital.

Para gerenciar os riscos, a Anthropic estruturou o Projeto Glasswing com um grupo de parceiros fundadores que inclui Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, a Linux Foundation, Microsoft, Nvidia e Palo Alto Networks. Além desse núcleo central, a empresa estendeu o acesso a mais de 40 organizações adicionais que desenvolvem ou mantêm infraestrutura crítica de software. A Anthropic comprometeu até cem milhões de dólares em créditos de uso do Claude Mythos Preview para a iniciativa, além de quatro milhões de dólares em doações diretas a organizações de segurança de código aberto.

Uma dimensão particularmente relevante do projeto envolve o ecossistema de software livre e de código aberto. Historicamente, mantenedores de projetos de código aberto, cujo software sustenta grande parte da infraestrutura crítica do mundo, não dispõem de equipes de segurança dedicadas. Jim Zemlin, diretor-executivo da Linux Foundation, ressaltou que a expertise em segurança sempre foi um privilégio de organizações com grandes equipes especializadas, enquanto os mantenedores de código aberto ficaram abandonados. A Anthropic doou dois milhões e meio de dólares às iniciativas Alpha-Omega e OpenSSF, por meio da Linux Foundation, e um milhão e meio de dólares à Apache Software Foundation, permitindo que mantenedores de bases de código críticas tenham acesso a varreduras de vulnerabilidade com IA em uma escala até então inalcançável.

O cenário competitivo já está se reconfigurando em resposta a essas evoluções. Quando a OpenAI lançou o modelo GPT-5.3-Codex em fevereiro, a empresa o classificou como o primeiro modelo de alta capacidade para tarefas de segurança cibernética dentro de seu framework de prontidão. O movimento da Anthropic com o Projeto Glasswing reforça que os principais laboratórios de inteligência artificial veem a implantação controlada, e não a liberação aberta, como o padrão emergente para modelos que atingem esse nível de capacidade. A Anthropic afirmou que seu objetivo é eventualmente implantar modelos da classe Mythos em larga escala, mas apenas quando novas salvaguardas estiverem em vigor. A empresa planeja lançar essas salvaguardas em um futuro modelo Claude Opus antes, para refiná-las com um sistema que não apresenta o mesmo nível de risco.

A iniciativa do Projeto Glasswing coloca um desafio central para toda a indústria de inteligência artificial. À medida que os modelos de linguagem se tornam mais proficientes na análise e manipulação de código, a fronteira entre segurança e risco se torna cada vez mais tênue. A Anthropic optou por antecipar o problema e canalizar essas capacidades para fins protetivos, mas a empresa reconhece que nenhuma iniciativa isolada será suficiente para conter a disseminação dessas tecnologias. A questão que permanece aberta é se o padrão de implantação controlada adotado agora se sustentará à medida que essas capacidades se tornarem mais acessíveis a um número maior de atores no mercado global.