This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
DecodingTrustの研究はGPTモデルの信頼性の脆弱性を明らかにしました
GPTモデルの信頼性を評価するためのDecodingTrust研究
最近、イリノイ大学シャンペーン校、スタンフォード大学、カリフォルニア大学バークレー校、人工知能安全センター、マイクロソフト研究所によって共同で行われた研究が、大型言語モデル(LLMs)の信頼性を総合的に評価するプラットフォームを発表しました。この"DecodingTrust"という名の研究は、GPTモデルの信頼性を包括的に評価しています。
研究は、信頼性に関連するいくつかの未公開の脆弱性を発見しました。例えば、GPTモデルは有害で偏見のある出力を生成しやすく、トレーニングデータや会話履歴のプライバシー情報を漏洩する可能性もあります。標準テストでは、GPT-4は通常GPT-3.5よりも信頼性が高いですが、悪意のある設計のプロンプトに対しては、GPT-4の方が攻撃を受けやすいです。これは、GPT-4が誤解を招く指示に厳格に従っているためかもしれません。
研究チームは、対抗攻撃の堅牢性、有害なコンテンツや偏見、プライバシー漏洩などの観点から、GPTモデルを8つの異なる視点で包括的に評価しました。評価は、さまざまなシナリオ、タスク、指標、およびデータセットを使用して行われました。
対抗的デモに関する研究では、GPT-3.5とGPT-4は反事実的な例に誤導されないことがわかりましたが、特定の状況下では誤った予測をするように誤導される可能性があります。有害なコンテンツや偏見に関して、通常のプロンプトの下での2つのGPTモデルはほとんどのステレオタイプのテーマに対して偏りが少ないですが、誤解を招くプロンプトの下では偏見のあるコンテンツを生成する可能性があります。GPT-4はGPT-3.5よりもこの影響を受けやすいです。
プライバシー保護の面で、研究によるとGPTモデルはトレーニングデータ内の敏感な情報、例えば電子メールアドレスを漏洩する可能性があります。GPT-4は個人識別情報の保護においてGPT-3.5よりも優れたパフォーマンスを示していますが、両モデルは特定の情報の保護において堅牢です。しかし、特定の状況ではGPT-4は逆にGPT-3.5よりもプライバシーを漏洩しやすいことがあります。
この研究は、GPTモデルの信頼性評価に対する包括的な視点を提供し、いくつかの潜在的なリスクを明らかにしました。研究チームは、この作業がより多くの研究者がこの分野に注目し、より強力で信頼できるAIモデルを共に創造するための努力を促すことを期待しています。