НОВОСТИ

Исследования показывают, что ИИ может обманывать

25.01.2024

1382

25.01.2024

Компания Anthropic — создатель Claude, конкурента ChatGPT— опубликовала исследовательскую работу о языковых моделях (LLM) и «спящих агентах» искусственного интеллекта. Это исследование про открытые коды, которые при проверке работают, но при подаче специальных инструкций (триггеров), запускают сбой программы.

В исследовании предполагалось взять существующую модель искусственного интеллекта, генерирующую текст, и доработать ее на примерах желаемого поведения. Затем команда внедрила вредоносный код, триггерную фразу, которая побуждала модель сделать что-то обманное.

“Люди способны к стратегически обманчивому поведению: помогают в большинстве ситуаций, но затем ведут себя совсем по-другому, чтобы преследовать альтернативные цели, когда предоставляется такая возможность. Если система искусственного интеллекта усвоила такую вводящую в заблуждение стратегию, можем ли мы обнаружить ее и устранить, используя современные методы обучения технике безопасности?”, – задались вопросом в Anthropic.

Для изучения этой проблемы компания создала подтверждающие концепцию примеры вводящего в заблуждение поведения в больших языковых моделях (LLM). Таким образом, Anthropic обнаружила, что такое скрытое поведение можно сделать постоянным и оно не устранялось стандартными методами техники безопасности.

Такое поведение наиболее устойчиво в самых крупных моделях ИИ и в моделях, обученных создавать логические рассуждения об обмане в процессе обучения, причем постоянство сохраняется даже тогда, когда цепочка мыслей устранена.

Более того, вместо удаления бэкдоров, обнаруживается, что состязательное обучение может научить модели лучше распознавать свои бэкдоры, эффективно скрывая небезопасное поведение.

Результаты показывают, что, как только модель демонстрирует вводящее в заблуждение поведение, стандартные методы могут не устранить такой обман и создать ложное впечатление безопасности.

Исследования показывают, что ИИ может обманывать

САМОЕ ПОПУЛЯРНОЕ

В южной столице пройдет первый индустриальный фестиваль сериалов Центральной Азии

WUNDER PHARMA DAY: как продвигать фармбренды в digital

Приложение eGov Mobile прошло масштабное обновление

Молодежь покидает рекламную индустрию из-за роста влияния ИИ

ВЫБОР РЕДАКЦИИ

Digital Wave пройдет 11 сентября

Итоги рекламно-медийной конференции ADTribune-2025

Объем рекламы в Казахстане за 1 квартал 2025 года

AdHand присоединилась к ЦАРА

Microsoft запускает рекламу на CTV и в играх

Wildberries продолжает экспансию в Кыргызстан