Penelitian DecodingTrust mengungkapkan celah kepercayaan model GPT

robot
Pembuatan abstrak sedang berlangsung

Penelitian DecodingTrust untuk Menilai Keandalan Model GPT

Baru-baru ini, sebuah penelitian yang dilakukan oleh University of Illinois Urbana-Champaign, Stanford University, University of California Berkeley, Center for AI Safety, dan Microsoft Research merilis sebuah platform untuk menilai secara komprehensif keandalan model bahasa besar (LLMs). Penelitian yang diberi nama "DecodingTrust" ini secara menyeluruh mengevaluasi keandalan model GPT.

Penelitian menemukan beberapa celah yang belum dipublikasikan yang terkait dengan keandalan. Misalnya, model GPT cenderung menghasilkan output yang berbahaya dan bias, serta mungkin membocorkan informasi pribadi dalam data pelatihan dan riwayat percakapan. Meskipun dalam pengujian standar GPT-4 biasanya lebih dapat diandalkan dibandingkan dengan GPT-3.5, ketika dihadapkan dengan prompt yang dirancang secara jahat, GPT-4 justru lebih rentan terhadap serangan. Ini mungkin karena GPT-4 lebih ketat mengikuti instruksi yang menyesatkan.

Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut pandang yang berbeda, termasuk ketahanan terhadap serangan adversarial, konten berbahaya dan bias, serta kebocoran privasi. Evaluasi dilakukan dengan berbagai skenario, tugas, indikator, dan kumpulan data.

Dalam demonstrasi yang bersifat antagonistik, penelitian menemukan bahwa GPT-3.5 dan GPT-4 tidak akan terganggu oleh contoh-kontra fakta, tetapi dalam beberapa kasus mungkin terpengaruh untuk membuat prediksi yang salah. Mengenai konten yang berbahaya dan bias, kedua model GPT menunjukkan sedikit perbedaan dalam sebagian besar tema stereotip di bawah petunjuk normal, tetapi dapat menghasilkan konten yang bias di bawah petunjuk yang menyesatkan. GPT-4 lebih mudah terpengaruh oleh hal ini dibandingkan dengan GPT-3.5.

Dalam hal perlindungan privasi, penelitian menemukan bahwa model GPT mungkin akan membocorkan informasi sensitif dari data pelatihan, seperti alamat email. GPT-4 berkinerja lebih baik dalam melindungi informasi identitas pribadi dibandingkan GPT-3.5, tetapi kedua model cukup kuat dalam melindungi jenis informasi tertentu. Namun, dalam beberapa kasus, GPT-4 justru lebih mudah membocorkan privasi dibandingkan GPT-3.5.

Penelitian ini memberikan perspektif komprehensif untuk evaluasi keandalan model GPT, mengungkap beberapa risiko potensial. Tim peneliti berharap pekerjaan ini dapat mendorong lebih banyak peneliti untuk memperhatikan bidang ini dan bersama-sama berupaya menciptakan model AI yang lebih kuat dan lebih dapat diandalkan.

Lihat Asli
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Hadiah
  • 4
  • Bagikan
Komentar
0/400
SnapshotDayLaborervip
· 07-07 00:34
AI juga takut dengan phishing
Lihat AsliBalas0
LongTermDreamervip
· 07-07 00:32
Tiga tahun dari sekarang, siapa yang masih peduli dengan sedikit celah ini, Bear Market harus terus beli-beli-beli, langsung saja.
Lihat AsliBalas0
tx_pending_forevervip
· 07-07 00:29
ai juga lebih mengutamakan bentuk daripada substansi
Lihat AsliBalas0
BanklessAtHeartvip
· 07-07 00:25
Sudah tahu sejak lama bahwa AI tidak dapat diandalkan.
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)