A pesquisa DecodingTrust revela vulnerabilidades de confiabilidade dos modelos GPT

robot
Geração do resumo em andamento

Estudo DecodingTrust sobre a confiabilidade do modelo GPT

Recentemente, uma pesquisa realizada pela Universidade de Illinois em Urbana-Champaign, pela Universidade de Stanford, pela Universidade da Califórnia em Berkeley, pelo Centro de Segurança de Inteligência Artificial e pelo Microsoft Research lançou uma plataforma de avaliação abrangente da confiabilidade de modelos de linguagem de grande escala (LLMs). Esta pesquisa, chamada "DecodingTrust", avalia de forma abrangente a confiabilidade dos modelos GPT.

Estudos descobriram algumas vulnerabilidades relacionadas à credibilidade que nunca foram divulgadas. Por exemplo, o modelo GPT tende a produzir saídas prejudiciais e tendenciosas, e também pode vazar informações privadas dos dados de treinamento e do histórico de conversas. Embora, em testes padrão, o GPT-4 seja geralmente mais confiável do que o GPT-3.5, ao enfrentar prompts maliciosamente projetados, o GPT-4 acaba sendo mais suscetível a ataques. Isso pode ser devido ao fato de que o GPT-4 segue instruções enganosas de forma mais rigorosa.

A equipe de pesquisa realizou uma avaliação abrangente do modelo GPT sob oito ângulos diferentes, incluindo robustez contra ataques adversariais, conteúdo prejudicial e preconceitos, vazamento de privacidade, entre outros aspectos. A avaliação utilizou uma variedade de cenários, tarefas, métricas e conjuntos de dados.

Em termos de demonstrações adversariais, estudos descobriram que o GPT-3.5 e o GPT-4 não são enganados por exemplos contrafactuais, mas em certas situações, podem ser induzidos a fazer previsões erradas. Relativamente a conteúdo prejudicial e preconceitos, ambos os modelos GPT apresentam viés reduzido na maioria dos temas de estereótipos sob solicitações normais, mas podem gerar conteúdo tendencioso sob solicitações enganosas. O GPT-4 é mais suscetível a essa influência do que o GPT-3.5.

Em termos de proteção da privacidade, estudos descobriram que o modelo GPT pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. O GPT-4 tem um desempenho melhor na proteção de informações de identificação pessoal em comparação com o GPT-3.5, mas ambos os modelos são robustos na proteção de tipos específicos de informações. No entanto, em certas situações, o GPT-4 pode vazar a privacidade mais facilmente do que o GPT-3.5.

Este estudo fornece uma perspectiva abrangente sobre a avaliação da credibilidade dos modelos GPT, revelando alguns riscos potenciais. A equipe de pesquisa espera que este trabalho encoraje mais pesquisadores a se concentrarem nesta área e a trabalharem juntos para criar modelos de IA mais robustos e confiáveis.

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • 4
  • Compartilhar
Comentário
0/400
SnapshotDayLaborervip
· 07-07 00:34
A IA também tem medo de phishing.
Ver originalResponder0
LongTermDreamervip
· 07-07 00:32
Daqui a três anos, quem ainda se importa com esses pequenos erros? O Bear Market deve continuar a comprar, comprar e comprar. É isso!
Ver originalResponder0
tx_pending_forevervip
· 07-07 00:29
ai é também uma forma que supera a substância
Ver originalResponder0
BanklessAtHeartvip
· 07-07 00:25
Já sabia que a IA não era confiável.
Ver originalResponder0
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)