Penelitian DecodingTrust mengungkapkan celah kepercayaan model GPT

2025-07-07 00:07:01

Pembuatan abstrak sedang berlangsung

Penelitian DecodingTrust untuk Menilai Keandalan Model GPT

Baru-baru ini, sebuah penelitian yang dilakukan oleh University of Illinois Urbana-Champaign, Stanford University, University of California Berkeley, Center for AI Safety, dan Microsoft Research merilis sebuah platform untuk menilai secara komprehensif keandalan model bahasa besar (LLMs). Penelitian yang diberi nama "DecodingTrust" ini secara menyeluruh mengevaluasi keandalan model GPT.

Penelitian menemukan beberapa celah yang belum dipublikasikan yang terkait dengan keandalan. Misalnya, model GPT cenderung menghasilkan output yang berbahaya dan bias, serta mungkin membocorkan informasi pribadi dalam data pelatihan dan riwayat percakapan. Meskipun dalam pengujian standar GPT-4 biasanya lebih dapat diandalkan dibandingkan dengan GPT-3.5, ketika dihadapkan dengan prompt yang dirancang secara jahat, GPT-4 justru lebih rentan terhadap serangan. Ini mungkin karena GPT-4 lebih ketat mengikuti instruksi yang menyesatkan.

Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut pandang yang berbeda, termasuk ketahanan terhadap serangan adversarial, konten berbahaya dan bias, serta kebocoran privasi. Evaluasi dilakukan dengan berbagai skenario, tugas, indikator, dan kumpulan data.

Dalam demonstrasi yang bersifat antagonistik, penelitian menemukan bahwa GPT-3.5 dan GPT-4 tidak akan terganggu oleh contoh-kontra fakta, tetapi dalam beberapa kasus mungkin terpengaruh untuk membuat prediksi yang salah. Mengenai konten yang berbahaya dan bias, kedua model GPT menunjukkan sedikit perbedaan dalam sebagian besar tema stereotip di bawah petunjuk normal, tetapi dapat menghasilkan konten yang bias di bawah petunjuk yang menyesatkan. GPT-4 lebih mudah terpengaruh oleh hal ini dibandingkan dengan GPT-3.5.

Dalam hal perlindungan privasi, penelitian menemukan bahwa model GPT mungkin akan membocorkan informasi sensitif dari data pelatihan, seperti alamat email. GPT-4 berkinerja lebih baik dalam melindungi informasi identitas pribadi dibandingkan GPT-3.5, tetapi kedua model cukup kuat dalam melindungi jenis informasi tertentu. Namun, dalam beberapa kasus, GPT-4 justru lebih mudah membocorkan privasi dibandingkan GPT-3.5.

Penelitian ini memberikan perspektif komprehensif untuk evaluasi keandalan model GPT, mengungkap beberapa risiko potensial. Tim peneliti berharap pekerjaan ini dapat mendorong lebih banyak peneliti untuk memperhatikan bidang ini dan bersama-sama berupaya menciptakan model AI yang lebih kuat dan lebih dapat diandalkan.

GPT3.05%

Lihat Asli

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

11 Suka