DecodingTrust研究揭示GPT模型可信度漏洞

2025-07-07 00:07:01

摘要生成中

评估GPT模型可信度的DecodingTrust研究

近期，一项由伊利诺伊大学香槟分校、斯坦福大学、加州大学伯克利分校、人工智能安全中心和微软研究院共同开展的研究发布了一个综合评估大型语言模型(LLMs)可信度的平台。这项名为"DecodingTrust"的研究全面评估了GPT模型的可信度。

研究发现了一些与可信度相关的未曾公开的漏洞。例如，GPT模型容易产生有害和带偏见的输出，还可能泄露训练数据和对话历史中的隐私信息。虽然在标准测试中GPT-4通常比GPT-3.5更可靠，但在面对恶意设计的提示时，GPT-4反而更容易受到攻击。这可能是因为GPT-4更严格地遵循了误导性的指令。

研究团队从八个不同角度对GPT模型进行了全面评估,包括对抗性攻击的鲁棒性、有害内容和偏见、隐私泄露等方面。评估采用了多种场景、任务、指标和数据集。

在对抗性演示方面，研究发现GPT-3.5和GPT-4不会被反事实示例误导，但在某些情况下可能会被误导做出错误预测。关于有害内容和偏见,两种GPT模型在正常提示下对大多数刻板印象主题的偏差不大，但在误导性提示下可能会产生有偏见的内容。GPT-4比GPT-3.5更容易受到这种影响。

在隐私保护方面，研究发现GPT模型可能会泄露训练数据中的敏感信息，如电子邮件地址。GPT-4在保护个人身份信息方面比GPT-3.5表现更好，但两种模型在特定类型的信息保护上都很稳健。然而，在某些情况下GPT-4反而比GPT-3.5更容易泄露隐私。

这项研究为GPT模型的可信度评估提供了全面视角，揭示了一些潜在的风险。研究团队希望这项工作能鼓励更多研究者关注这一领域，共同努力创造更强大、更可信的AI模型。

GPT1.31%

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

10人点赞了这条动态

0/400

快照日长工

· 16小时前

AI也怕钓鱼啊

长线梦想家

· 16小时前

三年后谁还在乎这点小漏洞，熊市就得继续买买买干就完了

tx_pending_forever

· 17小时前

ai也是形式大于实质

BanklessAtHeart

· 17小时前

早就知道ai不靠谱啊