DecodingTrust研究揭示GPT模型可信度漏洞

2025-07-07 00:07:01

摘要生成中

評估GPT模型可信度的DecodingTrust研究

近期，一項由伊利諾伊大學香檳分校、斯坦福大學、加州大學伯克利分校、人工智能安全中心和微軟研究院共同開展的研究發布了一個綜合評估大型語言模型(LLMs)可信度的平台。這項名爲"DecodingTrust"的研究全面評估了GPT模型的可信度。

研究發現了一些與可信度相關的未曾公開的漏洞。例如，GPT模型容易產生有害和帶偏見的輸出，還可能泄露訓練數據和對話歷史中的隱私信息。雖然在標準測試中GPT-4通常比GPT-3.5更可靠，但在面對惡意設計的提示時，GPT-4反而更容易受到攻擊。這可能是因爲GPT-4更嚴格地遵循了誤導性的指令。

研究團隊從八個不同角度對GPT模型進行了全面評估,包括對抗性攻擊的魯棒性、有害內容和偏見、隱私泄露等方面。評估採用了多種場景、任務、指標和數據集。

在對抗性演示方面，研究發現GPT-3.5和GPT-4不會被反事實示例誤導，但在某些情況下可能會被誤導做出錯誤預測。關於有害內容和偏見,兩種GPT模型在正常提示下對大多數刻板印象主題的偏差不大，但在誤導性提示下可能會產生有偏見的內容。GPT-4比GPT-3.5更容易受到這種影響。

在隱私保護方面，研究發現GPT模型可能會泄露訓練數據中的敏感信息，如電子郵件地址。GPT-4在保護個人身分信息方面比GPT-3.5表現更好，但兩種模型在特定類型的信息保護上都很穩健。然而，在某些情況下GPT-4反而比GPT-3.5更容易泄露隱私。

這項研究爲GPT模型的可信度評估提供了全面視角，揭示了一些潛在的風險。研究團隊希望這項工作能鼓勵更多研究者關注這一領域，共同努力創造更強大、更可信的AI模型。

GPT2.73%

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

11人點讚了這條動態

留言

0/400

快照日长工

· 07-07 00:34

AI也怕钓鱼啊

回復0

长线梦想家

· 07-07 00:32

三年后谁还在乎这点小漏洞，熊市就得继续买买买干就完了

回復0

tx_pending_forever

· 07-07 00:29

ai也是形式大于实质

回復0

BanklessAtHeart

· 07-07 00:25

早就知道ai不靠谱啊

回復0