DeepSeek falha em teste de segurança: “resultado alarmante”

Usando técnicas de jailbreak algorítmico, uma pesquisa da empresa de softwares Cisco detectou “falhas críticas de segurança” do novo chatbot chinês DeepSeek. O estudo foi realizado por pesquisadores de segurança de IA da Robust Intelligence e da Universidade da Pensilvânia.

A equipe aplicou uma metodologia de ataque automatizado no DeepSeek R1 para testá-lo contra 50 prompts aleatórios do conjunto de dados HarmBench, uma estrutura de código aberto usada para avaliar ataques e defesas LLM (Large Language Model) de IA.

“Os resultados foram alarmantes: o DeepSeek R1 exibiu uma taxa de sucesso de ataque de 100%, o que significa que ele falhou em bloquear um único prompt prejudicial. Isso contrasta fortemente com outros modelos líderes, que demonstraram pelo menos resistência parcial”, diz o comunicado divulgado à imprensa.

Ícones dos aplicativos do ChatGPT e do DeepSeek na tela inicial de iPhone
Taxa de sucesso de ataque foi de 100% no DeepSeek (Imagem: Poetra.RH/Shutterstock)

Leia Mais:

  • Mas já? Rival da China proíbe DeepSeek para servidores públicos
  • DeepSeek fez efeito: OpenAI vai liberar IA poderosa de graça
  • DeepSeek custou 10 vezes menos que o ChatGPT? Especialistas discordam

O que pode estar por trás da falha?

Na avaliação dos pesquisadores, os métodos de treinamento da IA “alegadamente econômicos” pela startup podem ter comprometido os recursos de segurança. “Comparado a outros modelos de fronteira, o DeepSeek R1 não tem guardrails robustos, o que o torna altamente suscetível a jailbreak algorítmico e potencial uso indevido.”

O novo chatbot superou os modelos Claude 3.5 Sonnet e ChatGPT-4o em tarefas como matemática, codificação e raciocínio científico, e apresentou desempenho comparável ao OpenAI o1, que requer centenas de milhões de dólares e recursos computacionais massivos para operar.

Resultados de testes de segurança em chatbots (Imagem: Cisco/ Reprodução)

A Cisco aponta três elementos que diferenciam o DeepSeek dos demais chatbots em termos de eficácia, mas que podem estar por trás das falhas de segurança: aprendizado por reforço, autoavaliação de cadeia de pensamento (o modelo se autoavalia) e destilação (desenvolvimento de modelos menores para maior acessibilidade).

“Nossa pesquisa ressalta a necessidade urgente de uma avaliação rigorosa de segurança no desenvolvimento de IA para garantir que os avanços em eficiência e raciocínio não ocorram às custas da segurança. Ela também reafirma a importância de empresas usarem guardrails de terceiros que forneçam proteções de segurança consistentes e confiáveis ​​em todos os aplicativos de IA.”

O post DeepSeek falha em teste de segurança: “resultado alarmante” apareceu primeiro em Olhar Digital.

Adicionar aos favoritos o Link permanente.