Исследования показывают, что ИИ может обманывать

749

25.01.2024

Компания Anthropic — создатель Claude, конкурента ChatGPT— опубликовала исследовательскую работу о языковых моделях (LLM) и «спящих агентах» искусственного интеллекта. Это исследование про открытые коды, которые при проверке работают, но при подаче специальных инструкций (триггеров), запускают сбой программы. 

В исследовании предполагалось взять существующую модель искусственного интеллекта, генерирующую текст, и доработать ее на примерах желаемого поведения. Затем команда внедрила вредоносный код, триггерную фразу, которая побуждала модель сделать что-то обманное. 

“Люди способны к стратегически обманчивому поведению: помогают в большинстве ситуаций, но затем ведут себя совсем по-другому, чтобы преследовать альтернативные цели, когда предоставляется такая возможность. Если система искусственного интеллекта усвоила такую вводящую в заблуждение стратегию, можем ли мы обнаружить ее и устранить, используя современные методы обучения технике безопасности?”, – задались вопросом в Anthropic.

Для изучения этой проблемы компания создала подтверждающие концепцию примеры вводящего в заблуждение поведения в больших языковых моделях (LLM). Таким образом, Anthropic обнаружила, что такое скрытое поведение можно сделать постоянным и оно не устранялось стандартными методами техники безопасности. 

Такое поведение наиболее устойчиво в самых крупных моделях ИИ и в моделях, обученных создавать логические рассуждения об обмане в процессе обучения, причем постоянство сохраняется даже тогда, когда цепочка мыслей устранена. 

Более того, вместо удаления бэкдоров, обнаруживается, что состязательное обучение может научить модели лучше распознавать свои бэкдоры, эффективно скрывая небезопасное поведение. 

Результаты показывают, что, как только модель демонстрирует вводящее в заблуждение поведение, стандартные методы могут не устранить такой обман и создать ложное впечатление безопасности.