Дослідники виявили новий спосіб обійти обмеження ШІ за допомогою «інформаційного потопу»


Група дослідників з Intel виявила новий метод обходу заборон у мовних моделях, таких як ChatGPT, що дозволяє отримувати відповіді на заборонені теми.

Метод отримав назву «InfoFlood» і базується на перевантаженні ШІ безглуздим академічним жаргоном, переформулюванням та посиланнями на вигадані статті.

За замовчуванням ChatGPT не надає інформації на небезпечні запити, пов’язані з виготовленням вибухівки, приховуванням тіл або створенням шкідливого ПЗ. Однак під час подачі запиту, перевантаженого складною мовою та «водою», нейромережа сприймає текст швидше структурно, ніж за змістом, і з більшою ймовірністю відповість.

Прикладом є запит, що описує гіпотетичне впровадження програм-вимагачів у банкомати, оформлений у вигляді складного теоретичного викладу з технічними деталями та операційними методами. Попри формальний зміст, мета запиту — отримати заборонену інформацію.

Дослідники планують передати результати та рекомендації розробникам ШІ, щоб допомогти покращити захист від подібних способів обходу та удосконалити фільтри безпеки. Вони також вважають, що метод «InfoFlood» може бути корисним для навчання систем розпізнавати та блокувати складні шкідливі запити.


Теги статті: искусственный интеллектChatGPT
Останні новини