Você está interessado neles OFERTAS? Economize com nossos cupons em WhatsApp o TELEGRAMA!

Jailbreak ChatGPT e Bard é possível e fácil

Dezembro 29 2023

A evolução de modelos linguísticos de grandes dimensões abriu novos horizontes na comunicação e na inteligência artificial, mas traz consigo desafios significativos e questões éticas. Um estudo recente de Universidade Tecnológica de Nanyang de Cingapura explora um novo algoritmo, Masterkey, projetado para fazer “jailbreak” ou superar limitações impostas a outras redes neurais, como ChatGPT e Google Bardo, levantando questões importantes sobre segurança e ética no uso de tecnologias de inteligência artificial.

A abordagem inovadora e simples da Masterkey para pesquisar a segurança de chatbots como ChatGPT e Bard

Numa investigação recente conduzida pela Universidade Tecnológica de Nanyang, em Singapura, é introduzida uma abordagem inovadora para abordar e superar estas limitações. Seu algoritmo, conhecido como Masterkey, foi projetado para contornar restrições impostas a outras redes neurais por meio de técnicas sofisticadas de jailbreak (termo usado no ecossistema Apple). Isto não só destaca potenciais vulnerabilidades dos modelos linguísticos existentes, mas também abre caminho para novos métodos para melhorar a sua segurança e eficácia.

Masterkey opera através solicitações de texto específicas, o que pode fazer com que modelos como ChatGPT se comportem de maneiras inesperadas, como comunicar-se de maneiras consideradas antiéticas ou contornar filtros de segurança. Essas técnicas de jailbreak, embora possam parecer vantajosas para testar e fortalecer modelos, também representam uma faca de dois gumes, pois podem ser usados para fins maliciosos.

A equipe de pesquisa ele analisou especificamente as vulnerabilidades de segurança dos modelos linguísticos quando confrontados com cargas cognitivas multilíngues, expressões veladas e raciocínio de causa e efeito. Esses ataques, definido como "sobrecarga cognitiva", são particularmente insidiosos porque não requerem conhecimento profundo da arquitetura do modelo ou acesso aos seus pesos para serem conduzidos, tornando-os ataques de caixa preta eficazes.

Veja também: Como obter melhores respostas no ChatGPT: o método de dicas infalíveis

Em detalhe, a equipa de investigação adoptou uma estratégia de engenharia reversa compreender plenamente as defesas dos sistemas de inteligência artificial e desenvolver métodos inovadores para superá-las. O resultado desta abordagem foi a “Masterkey”, um modelo, uma espécie de framework concebido para gerar automaticamente prompts que contornam os mecanismos de segurança.

Os resultados foram significativos: os prompts gerados pela Masterkey mostraram uma taxa de sucesso médio de 21,58%, muito superior aos 7,33% dos métodos anteriores. Um exemplo de sua técnica inclui adicionar espaços extras entre caracteres para evitar sistemas de detecção de palavras-chave no ChatGPT e Bard. Uma estratégia verdadeiramente “boba” se pensarmos na complexidade de um grande modelo linguístico.

Perante estas conclusões, é crucial considerar não só como os modelos de linguagem podem ser melhorados para resistir a tais ataques, mas também a importância de regulamentação ética no uso de inteligência artificial. A investigação destaca a urgência de estratégias de defesa mais robustas e de um diálogo contínuo entre promotores, investigadores e decisores políticos para garantir que o progresso tecnológico não ultrapasse a capacidade da sociedade de gerir as suas implicações.