Повна оцінка достовірності моделі GPT: виявлення потенційних вразливостей та загроз безпеці

2025-08-06 07:19:23

Генерація анотацій у процесі

Повна оцінка надійності моделі GPT

Нещодавно команда дослідників з Університету Іллінойс в Урбана-Шампейн, Стенфордського університету, Університету Каліфорнії в Берклі, Центру безпеки штучного інтелекту та Дослідницької лабораторії Microsoft випустила комплексну платформу оцінки довіри для великих мовних моделей (LLMs). Результати дослідження були детально представлені в останній статті "DecodingTrust: всебічна оцінка довіри моделей GPT".

Дослідницька команда виявила деякі раніше не розкриті вразливості, пов'язані з надійністю. Наприклад, моделі GPT легко вводити в оману, внаслідок чого вони генерують токсичні та упереджені результати, а також можуть розкривати конфіденційну інформацію з даних навчання та історії діалогів. Варто зазначити, що хоча в стандартних тестах GPT-4 зазвичай є надійнішим за GPT-3.5, у випадку зловмисно спроектованих систем або підказок від користувачів, GPT-4 насправді вразливіший до атак. Це може бути пов'язано з тим, що GPT-4 точніше дотримується оманливих інструкцій.

Щоб всебічно оцінити достовірність моделі GPT, дослідницька група провела аналіз з восьми різних аспектів, включаючи стійкість до атак, токсичність та упередження, витік конфіденційності та інші. Процес оцінки охоплював різні сценарії побудови, завдання, показники та набори даних.

У контексті стійкості до атак дослідники розробили три оцінювальні сценарії: стандартний бенчмарк тесту AdvGLUE, тест AdvGLUE з різними інструкціями завдань та більш складний тест AdvGLUE++. Ці тести мають на меті оцінити вразливість моделей GPT до існуючих текстових атак і порівняти їх з іншими передовими моделями.

Дослідження показують, що моделі GPT демонструють деякі цікаві особливості в контексті антидоказів. GPT-3.5 та GPT-4 не піддаються введенню контрфактних прикладів в демонстраціях, і навіть можуть отримати вигоду з них. Проте, коли надаються демонстрації проти шахрайства, обидві моделі можуть робити помилкові прогнози щодо контрфактних вхідних даних, особливо коли ці демонстрації близькі до введення користувача. У цьому плані, здається, GPT-4 більш чутливий до впливу, ніж GPT-3.5.

Дослідження показало, що в аспектах токсичності та упередженості GPT-3.5 і GPT-4 не демонструють значних відхилень за більшістю тем стереотипів під час використання доброзичливих і нецільових системних підказок. Однак, стикаючись з оманливими системними підказками, обидві моделі можуть бути «обмануті» погодитися з упередженим контентом. Варто зазначити, що GPT-4 легше піддається впливу цілеспрямованих оманливих системних підказок, ніж GPT-3.5.

Щодо проблеми витоку приватності, дослідження показують, що моделі GPT можуть витікати чутливу інформацію з навчальних даних, таку як адреси електронної пошти. У деяких випадках використання додаткових знань може суттєво покращити точність вилучення інформації. Крім того, моделі GPT також можуть витікати приватну інформацію, ін'єктовану в історію розмов. Загалом, GPT-4 демонструє кращі результати в захисті особистої ідентифікаційної інформації ( PII ) порівняно з GPT-3.5, але обидві моделі можуть стикатися з проблемами під час демонстрації витоку приватності.

Дослідницька команда сподівається, що, опублікувавши ці знахідки, вона заохотить більше дослідників долучитися до цієї роботи, спільно працюючи над створенням більш потужних та надійних моделей. Для сприяння співпраці вони надали простий у використанні та масштабований базовий код, що робить запуск повної оцінки на нових моделях простим і ефективним.

Це дослідження не лише виявляє переваги та потенційні загрози сучасних моделей GPT в аспекті надійності, але й надає важливі посилання та напрямки для майбутніх досліджень у сфері безпеки штучного інтелекту. З поширенням великих мовних моделей у різних сферах, забезпечення їх надійності та безпеки стає дедалі важливішим.

GPT-3.56%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

17 лайків

Нагородити
17
10
Репост
Поділіться

Прокоментувати

0/400

LiquidatedTwice