O algoritmo Mythos 5, desenvolvido pela empresa de inteligência artificial Anthropic, conseguiu penetrar em quase todos os sistemas confidenciais da Agência Nacional de Segurança dos Estados Unidos (NSA, na sigla em inglês) durante testes realizados em questão de horas. A revelação foi feita pelo general Joshua Rudd, diretor da agência desde março deste ano, e relatada pela revista britânica The Economist por meio do senador Mark Warner, vice-presidente do Comitê de Inteligência do Senado norte-americano.
A informação amplia a tensão em torno do modelo, que já havia sido alvo de uma ordem da Casa Branca proibindo seu uso por estrangeiros. A justificativa do governo foi de que o algoritmo, supostamente capaz de identificar grande volume de brechas de segurança em diferentes programas, representaria uma ameaça à segurança nacional do país.
A Anthropic é uma empresa norte-americana de inteligência artificial, criadora da família de modelos Claude e reconhecida por sua ênfase em segurança e alinhamento de sistemas de IA. O Mythos 5 se diferencia de seus produtos anteriores por sua especialização em cibersegurança ofensiva, ou seja, na identificação e exploração de vulnerabilidades em sistemas de software.
Segundo o relato obtido pela The Economist, o general Rudd afirmou que o Mythos teria invadido quase todos os sistemas confidenciais da agência, não em semanas, mas em horas. A declaração não traz detalhes técnicos sobre como a penetração ocorreu, mas indica que o algoritmo foi utilizado provavelmente em um exercício do tipo red team — prática na qual profissionais de segurança de uma organização empregam ferramentas para atacar seus próprios sistemas com o objetivo de identificar falhas antes que agentes externos o façam.
O Mythos 5 ganhou notoriedade pública após identificar 271 vulnerabilidades no navegador Firefox durante um teste controlado conduzido com a permissão da Fundação Mozilla, organização sem fins lucrativos responsável pelo navegador. O número de falhas encontradas em um único produto é considerado expressivo e demonstra a capacidade do algoritmo de analisar grandes volumes de código em busca de brechas que poderiam ser exploradas por atacantes.
Diante do potencial do modelo, a Anthropic optou inicialmente por restringir seu uso, liberando-o apenas para pesquisadores e instituições previamente aprovadas pela empresa. A decisão seguia uma postura cautelosa que tem se tornado comum entre desenvolvedoras de inteligência artificial diante de modelos com capacidades inéditas.
No dia 9 de junho, porém, a empresa mudou de estratégia e lançou publicamente o Fable, uma versão controlada do Mythos acompanhada de guardrails — mecanismos de segurança programados para impedir que o sistema execute determinadas operações potencialmente prejudiciais. A intenção era permitir que a comunidade de desenvolvedores e pesquisadores tivesse acesso ao modelo dentro de limites considerados seguros.
A experiência durou apenas três dias. No dia 12 de junho, a Casa Branca emitiu uma ordem determinando a retirada do algoritmo do ar, sob a justificativa de que ele representava um risco à segurança nacional dos Estados Unidos. A Anthropic acatou a determinação e removeu o modelo de seu site.
O fator que teria precipitado a intervenção governamental foi uma descoberta feita por engenheiros da Amazon. Segundo relatos, esses profissionais encontraram uma forma de contornar os guardrails do Fable, tornando possível acessar capacidades restritas do modelo. A informação foi repassada às autoridades norte-americanas, que decidiram agir.
A trajetória do Mythos ecoa um padrão já observado na indústria de inteligência artificial, em que desenvolvedoras alertam sobre os riscos de seus próprios modelos antes de liberá-los ao público. A OpenAI, concorrente direta da Anthropic, manteve o GPT-2 sob acesso restrito em 2019, alegando temores sobre usos maliciosos, e o liberou meses depois. O GPT-3 seguiu caminho semelhante, e em novembro de 2022 a empresa lançou o ChatGPT, baseado no modelo GPT-3.5, mais poderoso que seus antecessores.
A diferença, no caso do Mythos e do Fable, está na natureza das capacidades envolvidas. Enquanto modelos de linguagem como o GPT-3.5 foram avaliados principalmente por seu potencial de gerar desinformação ou conteúdo inadequado, o Mythos demonstrou habilidade concreta de identificar e potencialmente explorar vulnerabilidades de segurança em programas amplamente utilizados, uma capacidade com implicações diretas para a infraestrutura digital de governos e empresas.
A descoberta de que o algoritmo conseguiu penetrar os sistemas da NSA, considerada uma das agências de inteligência mais sofisticadas do mundo, reforça a percepção de que ferramentas de inteligência artificial aplicadas à cibersegurança estão atingindo um nível de eficácia sem precedentes. A rapidez com que o modelo operou, em horas em vez de semanas, sugere que a automatização de testes de penetração pode comprimir drasticamente os prazos tradicionais de avaliação de segurança.
O caso também coloca em evidência a relação entre empresas de tecnologia e o governo dos Estados Unidos. A intervenção direta da Casa Branca sobre um produto privado de inteligência artificial sinaliza uma disposição regulatória mais agressiva diante de modelos considerados sensíveis. Ao mesmo tempo, o envolvimento da NSA nos testes indica que órgãos de inteligência já estão avaliando de perto o potencial dessas ferramentas, tanto para fins defensivos quanto ofensivos.
Resta em aberto o futuro do Mythos e do Fable. Com a proibição de uso por estrangeiros e a retirada do ar do modelo, a Anthropic enfrenta o desafio de equilibrar o desenvolvimento de tecnologias avançadas de cibersegurança com as pressões regulatórias crescentes. O episódio deixa claro que a fronteira entre inteligência artificial defensiva e ofensiva está se tornando cada vez mais tênue, e que governos já tratam o tema como questão de segurança nacional de primeira ordem.