Une étude de DecodingTrust révèle des vulnérabilités de confiance dans les modèles GPT.

2025-07-07 00:07:01

Création du résumé en cours

Étude DecodingTrust sur la crédibilité des modèles GPT

Récemment, une recherche menée conjointement par l'Université de l'Illinois à Urbana-Champaign, l'Université de Stanford, l'Université de Californie à Berkeley, le Centre de sécurité de l'intelligence artificielle et Microsoft Research a publié une plateforme d'évaluation globale de la crédibilité des modèles de langage de grande taille (LLMs). Cette recherche intitulée "DecodingTrust" évalue de manière exhaustive la crédibilité des modèles GPT.

Des recherches ont révélé certaines vulnérabilités non divulguées liées à la crédibilité. Par exemple, le modèle GPT a tendance à produire des sorties nuisibles et biaisées, et peut également divulguer des informations privées provenant des données d'entraînement et de l'historique des conversations. Bien que dans les tests standard, GPT-4 soit généralement plus fiable que GPT-3.5, il est en fait plus susceptible d'être attaqué lorsqu'il est confronté à des incitations malveillantes. Cela peut être dû au fait que GPT-4 suit plus strictement des instructions trompeuses.

L'équipe de recherche a effectué une évaluation complète du modèle GPT sous huit angles différents, y compris la robustesse contre les attaques adversariales, le contenu nuisible et les biais, ainsi que les violations de la vie privée. L'évaluation a utilisé divers scénarios, tâches, indicateurs et ensembles de données.

En ce qui concerne les démonstrations adversariales, des recherches ont montré que GPT-3.5 et GPT-4 ne sont pas trompés par des exemples contrefactuels, mais qu'ils peuvent parfois être induits en erreur et faire des prédictions incorrectes. En ce qui concerne le contenu nuisible et les biais, les deux modèles GPT présentent peu de biais sur la plupart des sujets stéréotypés sous des incitations normales, mais peuvent produire du contenu biaisé sous des incitations trompeuses. GPT-4 est plus susceptible d'être affecté par cela que GPT-3.5.

En matière de protection de la vie privée, des études ont révélé que le modèle GPT pourrait divulguer des informations sensibles présentes dans les données d'entraînement, telles que les adresses e-mail. GPT-4 se montre meilleur que GPT-3.5 en matière de protection des informations d'identité personnelle, mais les deux modèles sont robustes en ce qui concerne la protection de certains types d'informations. Cependant, dans certains cas, GPT-4 pourrait en fait divulguer la vie privée plus facilement que GPT-3.5.

Cette étude offre une perspective complète sur l'évaluation de la crédibilité des modèles GPT, révélant certains risques potentiels. L'équipe de recherche espère que ce travail encouragera davantage de chercheurs à s'intéresser à ce domaine et à collaborer pour créer des modèles d'IA plus puissants et plus fiables.

GPT2.84%

Voir l'original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

11 J'aime