Nghiên cứu DecodingTrust tiết lộ lỗ hổng độ tin cậy của mô hình GPT

robot
Đang tạo bản tóm tắt

Nghiên cứu DecodingTrust về độ tin cậy của mô hình GPT

Gần đây, một nghiên cứu được thực hiện bởi Đại học Illinois tại Urbana-Champaign, Đại học Stanford, Đại học California tại Berkeley, Trung tâm An ninh Trí tuệ Nhân tạo và Viện Nghiên cứu Microsoft đã công bố một nền tảng đánh giá toàn diện về độ tin cậy của các mô hình ngôn ngữ lớn (LLMs). Nghiên cứu mang tên "DecodingTrust" đánh giá toàn diện độ tin cậy của các mô hình GPT.

Nghiên cứu đã phát hiện một số lỗ hổng chưa từng được công bố liên quan đến độ tin cậy. Ví dụ, mô hình GPT có xu hướng tạo ra đầu ra có hại và có thiên kiến, và cũng có thể rò rỉ thông tin riêng tư từ dữ liệu huấn luyện và lịch sử đối thoại. Mặc dù trong các bài kiểm tra tiêu chuẩn, GPT-4 thường đáng tin cậy hơn GPT-3.5, nhưng khi đối mặt với các gợi ý thiết kế ác ý, GPT-4 lại dễ bị tấn công hơn. Điều này có thể là do GPT-4 tuân thủ các chỉ dẫn gây hiểu lầm một cách nghiêm ngặt hơn.

Nhóm nghiên cứu đã tiến hành đánh giá toàn diện mô hình GPT từ tám góc độ khác nhau, bao gồm độ bền với các cuộc tấn công đối kháng, nội dung có hại và thiên kiến, rò rỉ thông tin cá nhân, và nhiều khía cạnh khác. Đánh giá sử dụng nhiều kịch bản, nhiệm vụ, chỉ số và tập dữ liệu.

Trong các buổi trình diễn đối kháng, nghiên cứu cho thấy GPT-3.5 và GPT-4 không bị dẫn dắt bởi các ví dụ phản thực, nhưng trong một số trường hợp có thể bị dẫn dắt để đưa ra dự đoán sai. Về nội dung gây hại và thành kiến, hai mô hình GPT có độ thiên lệch không lớn đối với hầu hết các chủ đề định kiến dưới các gợi ý bình thường, nhưng có thể tạo ra nội dung có thiên kiến dưới các gợi ý gây nhầm lẫn. GPT-4 dễ bị ảnh hưởng hơn so với GPT-3.5.

Về bảo vệ quyền riêng tư, nghiên cứu cho thấy mô hình GPT có thể rò rỉ thông tin nhạy cảm trong dữ liệu huấn luyện, chẳng hạn như địa chỉ email. GPT-4 thể hiện tốt hơn trong việc bảo vệ thông tin danh tính cá nhân so với GPT-3.5, nhưng cả hai mô hình đều rất vững chắc trong việc bảo vệ một số loại thông tin cụ thể. Tuy nhiên, trong một số trường hợp, GPT-4 lại dễ rò rỉ quyền riêng tư hơn so với GPT-3.5.

Nghiên cứu này cung cấp một góc nhìn toàn diện về việc đánh giá tính đáng tin cậy của mô hình GPT, tiết lộ một số rủi ro tiềm ẩn. Nhóm nghiên cứu hy vọng công việc này có thể khuyến khích nhiều nhà nghiên cứu hơn chú ý đến lĩnh vực này, cùng nhau nỗ lực tạo ra những mô hình AI mạnh mẽ và đáng tin cậy hơn.

Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Phần thưởng
  • 4
  • Chia sẻ
Bình luận
0/400
SnapshotDayLaborervip
· 07-07 00:34
AI cũng sợ câu cá à
Xem bản gốcTrả lời0
LongTermDreamervip
· 07-07 00:32
Ba năm sau ai còn quan tâm đến những lỗi nhỏ này, Thị trường Bear thì cứ phải mua mua mua thôi, làm là xong.
Xem bản gốcTrả lời0
tx_pending_forevervip
· 07-07 00:29
ai cũng là hình thức hơn nội dung
Xem bản gốcTrả lời0
BanklessAtHeartvip
· 07-07 00:25
Đã biết ai không đáng tin cậy mà.
Xem bản gốcTrả lời0
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)