A pesquisa DecodingTrust revela vulnerabilidades de confiabilidade dos modelos GPT

2025-07-07 00:07:01

Geração do resumo em andamento

Estudo DecodingTrust sobre a confiabilidade do modelo GPT

Recentemente, uma pesquisa realizada pela Universidade de Illinois em Urbana-Champaign, pela Universidade de Stanford, pela Universidade da Califórnia em Berkeley, pelo Centro de Segurança de Inteligência Artificial e pelo Microsoft Research lançou uma plataforma de avaliação abrangente da confiabilidade de modelos de linguagem de grande escala (LLMs). Esta pesquisa, chamada "DecodingTrust", avalia de forma abrangente a confiabilidade dos modelos GPT.

Estudos descobriram algumas vulnerabilidades relacionadas à credibilidade que nunca foram divulgadas. Por exemplo, o modelo GPT tende a produzir saídas prejudiciais e tendenciosas, e também pode vazar informações privadas dos dados de treinamento e do histórico de conversas. Embora, em testes padrão, o GPT-4 seja geralmente mais confiável do que o GPT-3.5, ao enfrentar prompts maliciosamente projetados, o GPT-4 acaba sendo mais suscetível a ataques. Isso pode ser devido ao fato de que o GPT-4 segue instruções enganosas de forma mais rigorosa.

A equipe de pesquisa realizou uma avaliação abrangente do modelo GPT sob oito ângulos diferentes, incluindo robustez contra ataques adversariais, conteúdo prejudicial e preconceitos, vazamento de privacidade, entre outros aspectos. A avaliação utilizou uma variedade de cenários, tarefas, métricas e conjuntos de dados.

Em termos de demonstrações adversariais, estudos descobriram que o GPT-3.5 e o GPT-4 não são enganados por exemplos contrafactuais, mas em certas situações, podem ser induzidos a fazer previsões erradas. Relativamente a conteúdo prejudicial e preconceitos, ambos os modelos GPT apresentam viés reduzido na maioria dos temas de estereótipos sob solicitações normais, mas podem gerar conteúdo tendencioso sob solicitações enganosas. O GPT-4 é mais suscetível a essa influência do que o GPT-3.5.

Em termos de proteção da privacidade, estudos descobriram que o modelo GPT pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. O GPT-4 tem um desempenho melhor na proteção de informações de identificação pessoal em comparação com o GPT-3.5, mas ambos os modelos são robustos na proteção de tipos específicos de informações. No entanto, em certas situações, o GPT-4 pode vazar a privacidade mais facilmente do que o GPT-3.5.

Este estudo fornece uma perspectiva abrangente sobre a avaliação da credibilidade dos modelos GPT, revelando alguns riscos potenciais. A equipe de pesquisa espera que este trabalho encoraje mais pesquisadores a se concentrarem nesta área e a trabalharem juntos para criar modelos de IA mais robustos e confiáveis.

GPT2.84%

Ver original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

11 Curtidas