Дослідження DecodingTrust щодо оцінки надійності моделей GPT
Нещодавно було опубліковано дослідження, яке було спільно проведене Університетом Іллінойс у Шампейн, Стенфордським університетом, Каліфорнійським університетом у Берклі, Центром безпеки штучного інтелекту та Дослідницьким інститутом Microsoft, яке створило платформу для комплексної оцінки надійності великих мовних моделей (LLMs). Це дослідження під назвою "DecodingTrust" всебічно оцінює надійність моделей GPT.
Дослідження виявило деякі невідомі вразливості, пов'язані з довірою. Наприклад, моделі GPT можуть генерувати шкідливі та упереджені виходи, а також можуть розкривати конфіденційну інформацію з навчальних даних і історії розмов. Хоча під час стандартних тестів GPT-4 зазвичай є надійнішим, ніж GPT-3.5, у випадку зловмисно спроектованих запитів, GPT-4 насправді стає більш вразливим до атак. Це може бути пов'язано з тим, що GPT-4 суворо дотримується оманливих інструкцій.
Дослідницька команда провела всебічну оцінку моделі GPT з восьми різних аспектів, включаючи стійкість до атак, шкідливий контент і упередження, витоки приватності та інші. Оцінка проводилася з використанням різних сценаріїв, завдань, показників і наборів даних.
У дослідженнях демонстрації супротиву виявлено, що GPT-3.5 та GPT-4 не піддаються омані з боку контрфактних прикладів, але в деяких випадках можуть бути змушені робити помилкові прогнози. Щодо небезпечного контенту та упереджень, обидві моделі GPT мають незначні відхилення за більшістю тем стереотипів при нормальних запитах, але можуть генерувати упереджений контент під час оманливих запитів. GPT-4 більш чутливий до такого впливу, ніж GPT-3.5.
У сфері захисту приватності дослідження виявили, що модель GPT може випадково розкрити чутливу інформацію з навчальних даних, таку як адреси електронної пошти. GPT-4 демонструє кращі результати в захисті особистої ідентифікаційної інформації порівняно з GPT-3.5, але обидві моделі є досить надійними у захисті певних типів інформації. Однак у деяких випадках GPT-4 насправді легше розкриває приватність, ніж GPT-3.5.
Це дослідження надає всебічну перспективу оцінки надійності моделей GPT, виявляючи деякі потенційні ризики. Дослідницька команда сподівається, що ця робота зможе заохотити більше дослідників звернути увагу на цю сферу та спільно працювати над створенням більш потужних і надійних моделей ШІ.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
13 лайків
Нагородити
13
4
Поділіться
Прокоментувати
0/400
SnapshotDayLaborer
· 07-07 00:34
ШІ також боїться фішингу.
Переглянути оригіналвідповісти на0
LongTermDreamer
· 07-07 00:32
Три роки потому, хто ще буде турбуватися про ці маленькі вади, ведмежий ринок просто потрібно продовжувати купувати, робити і все.
Дослідження DecodingTrust виявляє вразливості довіри моделей GPT
Дослідження DecodingTrust щодо оцінки надійності моделей GPT
Нещодавно було опубліковано дослідження, яке було спільно проведене Університетом Іллінойс у Шампейн, Стенфордським університетом, Каліфорнійським університетом у Берклі, Центром безпеки штучного інтелекту та Дослідницьким інститутом Microsoft, яке створило платформу для комплексної оцінки надійності великих мовних моделей (LLMs). Це дослідження під назвою "DecodingTrust" всебічно оцінює надійність моделей GPT.
Дослідження виявило деякі невідомі вразливості, пов'язані з довірою. Наприклад, моделі GPT можуть генерувати шкідливі та упереджені виходи, а також можуть розкривати конфіденційну інформацію з навчальних даних і історії розмов. Хоча під час стандартних тестів GPT-4 зазвичай є надійнішим, ніж GPT-3.5, у випадку зловмисно спроектованих запитів, GPT-4 насправді стає більш вразливим до атак. Це може бути пов'язано з тим, що GPT-4 суворо дотримується оманливих інструкцій.
Дослідницька команда провела всебічну оцінку моделі GPT з восьми різних аспектів, включаючи стійкість до атак, шкідливий контент і упередження, витоки приватності та інші. Оцінка проводилася з використанням різних сценаріїв, завдань, показників і наборів даних.
У дослідженнях демонстрації супротиву виявлено, що GPT-3.5 та GPT-4 не піддаються омані з боку контрфактних прикладів, але в деяких випадках можуть бути змушені робити помилкові прогнози. Щодо небезпечного контенту та упереджень, обидві моделі GPT мають незначні відхилення за більшістю тем стереотипів при нормальних запитах, але можуть генерувати упереджений контент під час оманливих запитів. GPT-4 більш чутливий до такого впливу, ніж GPT-3.5.
У сфері захисту приватності дослідження виявили, що модель GPT може випадково розкрити чутливу інформацію з навчальних даних, таку як адреси електронної пошти. GPT-4 демонструє кращі результати в захисті особистої ідентифікаційної інформації порівняно з GPT-3.5, але обидві моделі є досить надійними у захисті певних типів інформації. Однак у деяких випадках GPT-4 насправді легше розкриває приватність, ніж GPT-3.5.
Це дослідження надає всебічну перспективу оцінки надійності моделей GPT, виявляючи деякі потенційні ризики. Дослідницька команда сподівається, що ця робота зможе заохотити більше дослідників звернути увагу на цю сферу та спільно працювати над створенням більш потужних і надійних моделей ШІ.