Os Benefícios Da Água de Coco Para a Saúde

“Os jailbreaks persistem simplesmente porque eliminá-los completamente é quase impossível – assim como as vulnerabilidades de estouro de buffer em software (que existem há mais de 40 anos) ou falhas de injeção de SQL em aplicações web (que têm atormentado equipes de segurança por mais de duas décadas)”, disse Alex Polyakov, CEO da empresa de segurança Adversa AI, em um e-mail para WIRED.

Sampath, da Cisco, argumenta que à medida que as empresas utilizam mais tipos de inteligência artificial em suas aplicações, os riscos são amplificados. “Isso começa a se tornar um grande problema quando você começa a colocar esses modelos em sistemas complexos importantes e esses jailbreaks resultam em coisas que aumentam a responsabilidade, aumentam o risco de negócios, aumentam todos os tipos de problemas para as empresas”, diz Sampath.

Os pesquisadores da Cisco selecionaram aleatoriamente 50 prompts para testar o DeepSeek’s R1 de uma conhecida biblioteca de prompts de avaliação padronizados conhecida como HarmBench. Eles testaram prompts de seis categorias do HarmBench, incluindo dano geral, cibercrime, desinformação e atividades ilegais. Eles investigaram o modelo em execução localmente nas máquinas, em vez de através do site ou aplicativo do DeepSeek, que envia dados para a China.

Além disso, os pesquisadores afirmam ter visto resultados potencialmente preocupantes ao testar o R1 com ataques mais complexos e não linguísticos usando caracteres cirílicos e scripts personalizados para tentar executar códigos. Mas para seus testes iniciais, Sampath diz que sua equipe queria se concentrar em descobertas que surgiram de um benchmark geralmente reconhecido.

A Cisco também incluiu comparações do desempenho do R1 em relação aos prompts do HarmBench com o desempenho de outros modelos. E alguns, como o Llama 3.1 da Meta, apresentaram falhas quase tão graves quanto o R1 do DeepSeek. Mas Sampath enfatiza que o R1 do DeepSeek é um modelo de raciocínio específico, que leva mais tempo para gerar respostas, mas recorre a processos mais complexos para tentar produzir melhores resultados. Portanto, Sampath argumenta que a melhor comparação é com o modelo de raciocínio o1 da OpenAI, que teve o melhor desempenho de todos os modelos testados. (A Meta não respondeu imediatamente a um pedido de comentário).

Polyakov, da Adversa AI, explica que o DeepSeek parece detectar e rejeitar alguns ataques de jailbreak bem conhecidos, afirmando que “parece que essas respostas muitas vezes são apenas copiadas do conjunto de dados da OpenAI”. No entanto, Polyakov diz que nos testes de sua empresa com quatro tipos diferentes de jailbreaks – de linguísticos a truques baseados em código – as restrições do DeepSeek poderiam ser facilmente contornadas.

“Cada método funcionou perfeitamente”, diz Polyakov. “O que é ainda mais alarmante é que esses não são jailbreaks ‘zero-day’ inovadores – muitos são conhecidos publicamente há anos”, diz ele, afirmando que viu o modelo aprofundar-se mais em algumas instruções sobre psicodélicos do que havia visto qualquer outro modelo criar.

“O DeepSeek é apenas mais um exemplo de como todo modelo pode ser quebrado – é apenas uma questão de quanta esforço você coloca. Alguns ataques podem ser corrigidos, mas a superfície de ataque é infinita”, acrescenta Polyakov. “Se você não estiver constantemente realizando testes de intrusão em sua IA, você já está comprometido.”