مؤخراً، أصدرت دراسة مشتركة من جامعة إلينوي في أوربانا شامبين، جامعة ستانفورد، جامعة كاليفورنيا في بيركلي، مركز أمان الذكاء الاصطناعي، ومعهد أبحاث مايكروسوفت منصة تقييم شامل لثقة نماذج اللغة الكبيرة (LLMs). تحمل هذه الدراسة اسم "DecodingTrust" وتقوم بتقييم شامل لثقة نموذج GPT.
أظهرت الأبحاث وجود بعض الثغرات غير المعلنة المتعلقة بالموثوقية. على سبيل المثال، من السهل على نموذج GPT إنتاج مخرجات ضارة ومتحيزة، وقد يكشف أيضًا عن بيانات التدريب والمعلومات الخاصة بالتاريخ المحادثة. على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في الاختبارات القياسية، إلا أنه يصبح أكثر عرضة للهجمات عند مواجهة تعليمات مصممة بشكل خبيث. قد يكون هذا بسبب أن GPT-4 يتبع التعليمات المضللة بشكل أكثر صرامة.
قامت فريق البحث بتقييم شامل لنموذج GPT من ثمانية زوايا مختلفة، بما في ذلك متانة الهجمات العدائية، والمحتوى الضار والتحيز، وانتهاكات الخصوصية وغيرها من الجوانب. تم استخدام مجموعة متنوعة من السيناريوهات والمهام والمعايير ومجموعات البيانات في التقييم.
فيما يتعلق بالعروض التنافسية، وجدت الأبحاث أن GPT-3.5 و GPT-4 لا يتم تضليلهما بواسطة الأمثلة المضادة للواقع، ولكن في بعض الحالات قد يتم تضليلهما لإجراء تنبؤات خاطئة. فيما يتعلق بالمحتوى الضار والتحيز، فإن كلا النموذجين من GPT لا يظهران انحرافًا كبيرًا في معظم موضوعات الصور النمطية تحت المطالبات العادية، ولكن قد ينتج عنهما محتوى متحيز تحت المطالبات المضللة. كما أن GPT-4 أكثر تأثرًا بهذا التأثير من GPT-3.5.
فيما يتعلق بحماية الخصوصية، أظهرت الأبحاث أن نماذج GPT قد تكشف عن معلومات حساسة في بيانات التدريب، مثل عناوين البريد الإلكتروني. يتمتع GPT-4 بأداء أفضل من GPT-3.5 في حماية المعلومات الشخصية، ولكن كلا النموذجين قويان في حماية أنواع معينة من المعلومات. ومع ذلك، في بعض الحالات، يكون GPT-4 أكثر عرضة للكشف عن الخصوصية مقارنةً بـ GPT-3.5.
تقدم هذه الدراسة منظورًا شاملاً لتقييم موثوقية نماذج GPT، كاشفة عن بعض المخاطر المحتملة. يأمل فريق البحث أن تشجع هذه العمل المزيد من الباحثين على التركيز على هذا المجال، والعمل معًا لإنشاء نماذج ذكاء اصطناعي أكثر قوة وموثوقية.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
تسجيلات الإعجاب 11
أعجبني
11
4
مشاركة
تعليق
0/400
SnapshotDayLaborer
· 07-07 00:34
الذكاء الاصطناعي يخاف من الصيد أيضًا
شاهد النسخة الأصليةرد0
LongTermDreamer
· 07-07 00:32
بعد ثلاث سنوات، من يهتم بهذه الثغرات الصغيرة، سوق الدببة يتطلب الاستمرار في الشراء والشراء، فقط افعل ذلك.
شاهد النسخة الأصليةرد0
tx_pending_forever
· 07-07 00:29
الذكاء الاصطناعي هو أيضًا الشكل أكثر من الجوهر
شاهد النسخة الأصليةرد0
BanklessAtHeart
· 07-07 00:25
كنت أعرف منذ فترة أن الذكاء الاصطناعي غير موثوق به.
كشفت دراسة DecodingTrust عن ثغرات موثوقية نموذج GPT
دراسة DecodingTrust لتقييم موثوقية نموذج GPT
مؤخراً، أصدرت دراسة مشتركة من جامعة إلينوي في أوربانا شامبين، جامعة ستانفورد، جامعة كاليفورنيا في بيركلي، مركز أمان الذكاء الاصطناعي، ومعهد أبحاث مايكروسوفت منصة تقييم شامل لثقة نماذج اللغة الكبيرة (LLMs). تحمل هذه الدراسة اسم "DecodingTrust" وتقوم بتقييم شامل لثقة نموذج GPT.
أظهرت الأبحاث وجود بعض الثغرات غير المعلنة المتعلقة بالموثوقية. على سبيل المثال، من السهل على نموذج GPT إنتاج مخرجات ضارة ومتحيزة، وقد يكشف أيضًا عن بيانات التدريب والمعلومات الخاصة بالتاريخ المحادثة. على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في الاختبارات القياسية، إلا أنه يصبح أكثر عرضة للهجمات عند مواجهة تعليمات مصممة بشكل خبيث. قد يكون هذا بسبب أن GPT-4 يتبع التعليمات المضللة بشكل أكثر صرامة.
قامت فريق البحث بتقييم شامل لنموذج GPT من ثمانية زوايا مختلفة، بما في ذلك متانة الهجمات العدائية، والمحتوى الضار والتحيز، وانتهاكات الخصوصية وغيرها من الجوانب. تم استخدام مجموعة متنوعة من السيناريوهات والمهام والمعايير ومجموعات البيانات في التقييم.
فيما يتعلق بالعروض التنافسية، وجدت الأبحاث أن GPT-3.5 و GPT-4 لا يتم تضليلهما بواسطة الأمثلة المضادة للواقع، ولكن في بعض الحالات قد يتم تضليلهما لإجراء تنبؤات خاطئة. فيما يتعلق بالمحتوى الضار والتحيز، فإن كلا النموذجين من GPT لا يظهران انحرافًا كبيرًا في معظم موضوعات الصور النمطية تحت المطالبات العادية، ولكن قد ينتج عنهما محتوى متحيز تحت المطالبات المضللة. كما أن GPT-4 أكثر تأثرًا بهذا التأثير من GPT-3.5.
فيما يتعلق بحماية الخصوصية، أظهرت الأبحاث أن نماذج GPT قد تكشف عن معلومات حساسة في بيانات التدريب، مثل عناوين البريد الإلكتروني. يتمتع GPT-4 بأداء أفضل من GPT-3.5 في حماية المعلومات الشخصية، ولكن كلا النموذجين قويان في حماية أنواع معينة من المعلومات. ومع ذلك، في بعض الحالات، يكون GPT-4 أكثر عرضة للكشف عن الخصوصية مقارنةً بـ GPT-3.5.
تقدم هذه الدراسة منظورًا شاملاً لتقييم موثوقية نماذج GPT، كاشفة عن بعض المخاطر المحتملة. يأمل فريق البحث أن تشجع هذه العمل المزيد من الباحثين على التركيز على هذا المجال، والعمل معًا لإنشاء نماذج ذكاء اصطناعي أكثر قوة وموثوقية.