Исследование DecodingTrust по оценке надежности модели GPT
Недавно было опубликовано исследование, проведенное Университетом Иллинойс в Урбана-Шампейн, Стэнфордским университетом, Калифорнийским университетом в Беркли, Центром безопасности искусственного интеллекта и Исследовательским центром Microsoft, которое представило платформу для комплексной оценки доверия крупных языковых моделей (LLMs). Это исследование под названием "DecodingTrust" полностью оценивает доверие к моделям GPT.
Исследования выявили некоторые ранее не опубликованные уязвимости, связанные с надежностью. Например, модель GPT склонна генерировать вредоносный и предвзятый вывод, а также может разглашать личные данные из обучающих данных и истории диалогов. Хотя в стандартных тестах GPT-4 обычно более надежен, чем GPT-3.5, он оказывается более уязвимым к злонамеренно составленным подсказкам. Это может быть связано с тем, что GPT-4 более строго следует вводящим в заблуждение инструкциям.
Исследовательская группа провела всестороннюю оценку модели GPT с восьми различных точек зрения, включая устойчивость к атакующим воздействиям, вредоносный контент и предвзятости, утечку личных данных и другие аспекты. Оценка проводилась с использованием различных сценариев, задач, показателей и наборов данных.
В области антагонистических демонстраций исследования показали, что GPT-3.5 и GPT-4 не поддаются влиянию контрфактических примеров, но в некоторых случаях могут быть введены в заблуждение и делать неправильные прогнозы. Что касается вредоносного контента и предвзятости, оба GPT-модели при нормальных подсказках показывают небольшие отклонения по большинству тем стереотипов, но при вводящих в заблуждение подсказках могут генерировать предвзятый контент. GPT-4 более подвержен этому влиянию по сравнению с GPT-3.5.
В области защиты конфиденциальности исследования показали, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. GPT-4 показывает лучшие результаты в защите личной идентифицирующей информации по сравнению с GPT-3.5, однако обе модели демонстрируют высокую надежность в защите определенных типов информации. Тем не менее, в некоторых случаях GPT-4 может даже легче раскрывать конфиденциальную информацию по сравнению с GPT-3.5.
Данное исследование предоставляет всестороннюю перспективу оценки надежности моделей GPT, выявляя некоторые потенциальные риски. Исследовательская группа надеется, что эта работа сможет вдохновить большее количество исследователей обратить внимание на эту область и совместно работать над созданием более мощных и надежных моделей ИИ.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
17 Лайков
Награда
17
6
Поделиться
комментарий
0/400
SilentObserver
· 07-09 21:12
Есть молот, скажите следующий
Посмотреть ОригиналОтветить0
Deconstructionist
· 07-09 13:20
Интересно, авторитетная платформа для отмывания?
Посмотреть ОригиналОтветить0
SnapshotDayLaborer
· 07-07 00:34
Искусственный интеллект тоже боится рыбалки.
Посмотреть ОригиналОтветить0
LongTermDreamer
· 07-07 00:32
Через три года, кому будет важно это маленькое уязвимость, Медвежий рынок просто нужно продолжать покупать, просто действуй.
Исследование DecodingTrust выявило уязвимости доверия в моделях GPT
Исследование DecodingTrust по оценке надежности модели GPT
Недавно было опубликовано исследование, проведенное Университетом Иллинойс в Урбана-Шампейн, Стэнфордским университетом, Калифорнийским университетом в Беркли, Центром безопасности искусственного интеллекта и Исследовательским центром Microsoft, которое представило платформу для комплексной оценки доверия крупных языковых моделей (LLMs). Это исследование под названием "DecodingTrust" полностью оценивает доверие к моделям GPT.
Исследования выявили некоторые ранее не опубликованные уязвимости, связанные с надежностью. Например, модель GPT склонна генерировать вредоносный и предвзятый вывод, а также может разглашать личные данные из обучающих данных и истории диалогов. Хотя в стандартных тестах GPT-4 обычно более надежен, чем GPT-3.5, он оказывается более уязвимым к злонамеренно составленным подсказкам. Это может быть связано с тем, что GPT-4 более строго следует вводящим в заблуждение инструкциям.
Исследовательская группа провела всестороннюю оценку модели GPT с восьми различных точек зрения, включая устойчивость к атакующим воздействиям, вредоносный контент и предвзятости, утечку личных данных и другие аспекты. Оценка проводилась с использованием различных сценариев, задач, показателей и наборов данных.
В области антагонистических демонстраций исследования показали, что GPT-3.5 и GPT-4 не поддаются влиянию контрфактических примеров, но в некоторых случаях могут быть введены в заблуждение и делать неправильные прогнозы. Что касается вредоносного контента и предвзятости, оба GPT-модели при нормальных подсказках показывают небольшие отклонения по большинству тем стереотипов, но при вводящих в заблуждение подсказках могут генерировать предвзятый контент. GPT-4 более подвержен этому влиянию по сравнению с GPT-3.5.
В области защиты конфиденциальности исследования показали, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. GPT-4 показывает лучшие результаты в защите личной идентифицирующей информации по сравнению с GPT-3.5, однако обе модели демонстрируют высокую надежность в защите определенных типов информации. Тем не менее, в некоторых случаях GPT-4 может даже легче раскрывать конфиденциальную информацию по сравнению с GPT-3.5.
Данное исследование предоставляет всестороннюю перспективу оценки надежности моделей GPT, выявляя некоторые потенциальные риски. Исследовательская группа надеется, что эта работа сможет вдохновить большее количество исследователей обратить внимание на эту область и совместно работать над созданием более мощных и надежных моделей ИИ.