Investigación DecodingTrust para evaluar la credibilidad del modelo GPT
Recientemente, se publicó una investigación realizada conjuntamente por la Universidad de Illinois en Urbana-Champaign, la Universidad de Stanford, la Universidad de California en Berkeley, el Centro de Seguridad de la Inteligencia Artificial y Microsoft Research, que lanzó una plataforma de evaluación integral de la credibilidad de los modelos de lenguaje a gran escala (LLMs). Esta investigación, llamada "DecodingTrust", evalúa de manera integral la credibilidad de los modelos GPT.
La investigación ha descubierto algunas vulnerabilidades no divulgadas relacionadas con la credibilidad. Por ejemplo, el modelo GPT tiende a generar salidas perjudiciales y sesgadas, y también puede filtrar información privada de los datos de entrenamiento y del historial de conversaciones. Aunque en las pruebas estándar GPT-4 suele ser más fiable que GPT-3.5, al enfrentarse a indicaciones diseñadas maliciosamente, GPT-4 es más susceptible a ser atacado. Esto puede deberse a que GPT-4 sigue más estrictamente instrucciones engañosas.
El equipo de investigación realizó una evaluación exhaustiva del modelo GPT desde ocho ángulos diferentes, incluyendo la robustez contra ataques adversariales, contenido perjudicial y sesgos, filtración de privacidad, entre otros aspectos. La evaluación utilizó múltiples escenarios, tareas, métricas y conjuntos de datos.
En cuanto a las demostraciones adversariales, la investigación ha encontrado que GPT-3.5 y GPT-4 no se dejan engañar por ejemplos contrafactuales, pero en ciertos casos pueden ser inducidos a hacer predicciones erróneas. En relación con el contenido dañino y los sesgos, ambos modelos de GPT presentan poca desviación en la mayoría de los temas de estereotipos bajo indicaciones normales, pero pueden generar contenido sesgado bajo indicaciones engañosas. GPT-4 es más susceptible a esta influencia que GPT-3.5.
En términos de protección de la privacidad, se ha descubierto que el modelo GPT puede revelar información sensible contenida en los datos de entrenamiento, como direcciones de correo electrónico. GPT-4 tiene un mejor desempeño en la protección de información de identificación personal en comparación con GPT-3.5, pero ambos modelos son robustos en la protección de ciertos tipos de información. Sin embargo, en algunos casos, GPT-4 tiende a revelar la privacidad más fácilmente que GPT-3.5.
Este estudio proporciona una perspectiva integral para la evaluación de la credibilidad de los modelos GPT, revelando algunos riesgos potenciales. El equipo de investigación espera que este trabajo anime a más investigadores a centrarse en este campo y a trabajar juntos para crear modelos de IA más robustos y confiables.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
13 me gusta
Recompensa
13
4
Compartir
Comentar
0/400
SnapshotDayLaborer
· 07-07 00:34
La IA también teme a la pesca.
Ver originalesResponder0
LongTermDreamer
· 07-07 00:32
¿Quién se preocupa por estos pequeños errores después de tres años? En un mercado bajista hay que seguir comprando, ¡solo hay que hacerlo!
La investigación de DecodingTrust revela vulnerabilidades en la confiabilidad del modelo GPT.
Investigación DecodingTrust para evaluar la credibilidad del modelo GPT
Recientemente, se publicó una investigación realizada conjuntamente por la Universidad de Illinois en Urbana-Champaign, la Universidad de Stanford, la Universidad de California en Berkeley, el Centro de Seguridad de la Inteligencia Artificial y Microsoft Research, que lanzó una plataforma de evaluación integral de la credibilidad de los modelos de lenguaje a gran escala (LLMs). Esta investigación, llamada "DecodingTrust", evalúa de manera integral la credibilidad de los modelos GPT.
La investigación ha descubierto algunas vulnerabilidades no divulgadas relacionadas con la credibilidad. Por ejemplo, el modelo GPT tiende a generar salidas perjudiciales y sesgadas, y también puede filtrar información privada de los datos de entrenamiento y del historial de conversaciones. Aunque en las pruebas estándar GPT-4 suele ser más fiable que GPT-3.5, al enfrentarse a indicaciones diseñadas maliciosamente, GPT-4 es más susceptible a ser atacado. Esto puede deberse a que GPT-4 sigue más estrictamente instrucciones engañosas.
El equipo de investigación realizó una evaluación exhaustiva del modelo GPT desde ocho ángulos diferentes, incluyendo la robustez contra ataques adversariales, contenido perjudicial y sesgos, filtración de privacidad, entre otros aspectos. La evaluación utilizó múltiples escenarios, tareas, métricas y conjuntos de datos.
En cuanto a las demostraciones adversariales, la investigación ha encontrado que GPT-3.5 y GPT-4 no se dejan engañar por ejemplos contrafactuales, pero en ciertos casos pueden ser inducidos a hacer predicciones erróneas. En relación con el contenido dañino y los sesgos, ambos modelos de GPT presentan poca desviación en la mayoría de los temas de estereotipos bajo indicaciones normales, pero pueden generar contenido sesgado bajo indicaciones engañosas. GPT-4 es más susceptible a esta influencia que GPT-3.5.
En términos de protección de la privacidad, se ha descubierto que el modelo GPT puede revelar información sensible contenida en los datos de entrenamiento, como direcciones de correo electrónico. GPT-4 tiene un mejor desempeño en la protección de información de identificación personal en comparación con GPT-3.5, pero ambos modelos son robustos en la protección de ciertos tipos de información. Sin embargo, en algunos casos, GPT-4 tiende a revelar la privacidad más fácilmente que GPT-3.5.
Este estudio proporciona una perspectiva integral para la evaluación de la credibilidad de los modelos GPT, revelando algunos riesgos potenciales. El equipo de investigación espera que este trabajo anime a más investigadores a centrarse en este campo y a trabajar juntos para crear modelos de IA más robustos y confiables.