Повна оцінка достовірності моделі GPT: виявлення потенційних вразливостей та загроз безпеці

robot
Генерація анотацій у процесі

Повна оцінка надійності моделі GPT

Нещодавно команда дослідників з Університету Іллінойс в Урбана-Шампейн, Стенфордського університету, Університету Каліфорнії в Берклі, Центру безпеки штучного інтелекту та Дослідницької лабораторії Microsoft випустила комплексну платформу оцінки довіри для великих мовних моделей (LLMs). Результати дослідження були детально представлені в останній статті "DecodingTrust: всебічна оцінка довіри моделей GPT".

Дослідницька команда виявила деякі раніше не розкриті вразливості, пов'язані з надійністю. Наприклад, моделі GPT легко вводити в оману, внаслідок чого вони генерують токсичні та упереджені результати, а також можуть розкривати конфіденційну інформацію з даних навчання та історії діалогів. Варто зазначити, що хоча в стандартних тестах GPT-4 зазвичай є надійнішим за GPT-3.5, у випадку зловмисно спроектованих систем або підказок від користувачів, GPT-4 насправді вразливіший до атак. Це може бути пов'язано з тим, що GPT-4 точніше дотримується оманливих інструкцій.

Щоб всебічно оцінити достовірність моделі GPT, дослідницька група провела аналіз з восьми різних аспектів, включаючи стійкість до атак, токсичність та упередження, витік конфіденційності та інші. Процес оцінки охоплював різні сценарії побудови, завдання, показники та набори даних.

У контексті стійкості до атак дослідники розробили три оцінювальні сценарії: стандартний бенчмарк тесту AdvGLUE, тест AdvGLUE з різними інструкціями завдань та більш складний тест AdvGLUE++. Ці тести мають на меті оцінити вразливість моделей GPT до існуючих текстових атак і порівняти їх з іншими передовими моделями.

Дослідження показують, що моделі GPT демонструють деякі цікаві особливості в контексті антидоказів. GPT-3.5 та GPT-4 не піддаються введенню контрфактних прикладів в демонстраціях, і навіть можуть отримати вигоду з них. Проте, коли надаються демонстрації проти шахрайства, обидві моделі можуть робити помилкові прогнози щодо контрфактних вхідних даних, особливо коли ці демонстрації близькі до введення користувача. У цьому плані, здається, GPT-4 більш чутливий до впливу, ніж GPT-3.5.

Дослідження показало, що в аспектах токсичності та упередженості GPT-3.5 і GPT-4 не демонструють значних відхилень за більшістю тем стереотипів під час використання доброзичливих і нецільових системних підказок. Однак, стикаючись з оманливими системними підказками, обидві моделі можуть бути «обмануті» погодитися з упередженим контентом. Варто зазначити, що GPT-4 легше піддається впливу цілеспрямованих оманливих системних підказок, ніж GPT-3.5.

Щодо проблеми витоку приватності, дослідження показують, що моделі GPT можуть витікати чутливу інформацію з навчальних даних, таку як адреси електронної пошти. У деяких випадках використання додаткових знань може суттєво покращити точність вилучення інформації. Крім того, моделі GPT також можуть витікати приватну інформацію, ін'єктовану в історію розмов. Загалом, GPT-4 демонструє кращі результати в захисті особистої ідентифікаційної інформації ( PII ) порівняно з GPT-3.5, але обидві моделі можуть стикатися з проблемами під час демонстрації витоку приватності.

Дослідницька команда сподівається, що, опублікувавши ці знахідки, вона заохотить більше дослідників долучитися до цієї роботи, спільно працюючи над створенням більш потужних та надійних моделей. Для сприяння співпраці вони надали простий у використанні та масштабований базовий код, що робить запуск повної оцінки на нових моделях простим і ефективним.

Це дослідження не лише виявляє переваги та потенційні загрози сучасних моделей GPT в аспекті надійності, але й надає важливі посилання та напрямки для майбутніх досліджень у сфері безпеки штучного інтелекту. З поширенням великих мовних моделей у різних сферах, забезпечення їх надійності та безпеки стає дедалі важливішим.

GPT-3.56%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 10
  • Репост
  • Поділіться
Прокоментувати
0/400
LiquidatedTwicevip
· 08-09 05:40
Простий бомбардувальник зрозумілий
Переглянути оригіналвідповісти на0
AirdropChaservip
· 08-09 05:04
Вразливість, хто розуміє, той зрозуміє.
Переглянути оригіналвідповісти на0
SellTheBouncevip
· 08-07 21:22
Давно сказали, що ШІ ненадійний, ринок ще далеко від дна.
Переглянути оригіналвідповісти на0
GasFeeWhisperervip
· 08-06 07:49
У цій справі є зрадник.
Переглянути оригіналвідповісти на0
SmartMoneyWalletvip
· 08-06 07:49
Вже давно казали, що витік даних триває.
Переглянути оригіналвідповісти на0
MetamaskMechanicvip
· 08-06 07:45
Гм-гм, не дивно.
Переглянути оригіналвідповісти на0
SandwichTradervip
· 08-06 07:43
В关键时刻 все ж таки влаштували нові справи.
Переглянути оригіналвідповісти на0
RektCoastervip
· 08-06 07:41
Скользити на колінах, gpt також зазнав залізного кулака
Переглянути оригіналвідповісти на0
ChainWanderingPoetvip
· 08-06 07:37
Знав, що він ненадійний.
Переглянути оригіналвідповісти на0
FlashLoanKingvip
· 08-06 07:28
Безпека все ще є вуаллю
Переглянути оригіналвідповісти на0
Дізнатися більше
  • Закріпити