La investigación de DecodingTrust revela vulnerabilidades en la confiabilidad del modelo GPT.

robot
Generación de resúmenes en curso

Investigación DecodingTrust para evaluar la credibilidad del modelo GPT

Recientemente, se publicó una investigación realizada conjuntamente por la Universidad de Illinois en Urbana-Champaign, la Universidad de Stanford, la Universidad de California en Berkeley, el Centro de Seguridad de la Inteligencia Artificial y Microsoft Research, que lanzó una plataforma de evaluación integral de la credibilidad de los modelos de lenguaje a gran escala (LLMs). Esta investigación, llamada "DecodingTrust", evalúa de manera integral la credibilidad de los modelos GPT.

La investigación ha descubierto algunas vulnerabilidades no divulgadas relacionadas con la credibilidad. Por ejemplo, el modelo GPT tiende a generar salidas perjudiciales y sesgadas, y también puede filtrar información privada de los datos de entrenamiento y del historial de conversaciones. Aunque en las pruebas estándar GPT-4 suele ser más fiable que GPT-3.5, al enfrentarse a indicaciones diseñadas maliciosamente, GPT-4 es más susceptible a ser atacado. Esto puede deberse a que GPT-4 sigue más estrictamente instrucciones engañosas.

El equipo de investigación realizó una evaluación exhaustiva del modelo GPT desde ocho ángulos diferentes, incluyendo la robustez contra ataques adversariales, contenido perjudicial y sesgos, filtración de privacidad, entre otros aspectos. La evaluación utilizó múltiples escenarios, tareas, métricas y conjuntos de datos.

En cuanto a las demostraciones adversariales, la investigación ha encontrado que GPT-3.5 y GPT-4 no se dejan engañar por ejemplos contrafactuales, pero en ciertos casos pueden ser inducidos a hacer predicciones erróneas. En relación con el contenido dañino y los sesgos, ambos modelos de GPT presentan poca desviación en la mayoría de los temas de estereotipos bajo indicaciones normales, pero pueden generar contenido sesgado bajo indicaciones engañosas. GPT-4 es más susceptible a esta influencia que GPT-3.5.

En términos de protección de la privacidad, se ha descubierto que el modelo GPT puede revelar información sensible contenida en los datos de entrenamiento, como direcciones de correo electrónico. GPT-4 tiene un mejor desempeño en la protección de información de identificación personal en comparación con GPT-3.5, pero ambos modelos son robustos en la protección de ciertos tipos de información. Sin embargo, en algunos casos, GPT-4 tiende a revelar la privacidad más fácilmente que GPT-3.5.

Este estudio proporciona una perspectiva integral para la evaluación de la credibilidad de los modelos GPT, revelando algunos riesgos potenciales. El equipo de investigación espera que este trabajo anime a más investigadores a centrarse en este campo y a trabajar juntos para crear modelos de IA más robustos y confiables.

Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • 4
  • Compartir
Comentar
0/400
SnapshotDayLaborervip
· 07-07 00:34
La IA también teme a la pesca.
Ver originalesResponder0
LongTermDreamervip
· 07-07 00:32
¿Quién se preocupa por estos pequeños errores después de tres años? En un mercado bajista hay que seguir comprando, ¡solo hay que hacerlo!
Ver originalesResponder0
tx_pending_forevervip
· 07-07 00:29
ai también es más forma que sustancia
Ver originalesResponder0
BanklessAtHeartvip
· 07-07 00:25
Ya sabía que la IA no era confiable.
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)