Искусственный интеллект научился обманывать и угрожать своим создателям

Стресс-тестирование выявляет все более частые неудачи ведущих моделей искусственного интеллекта.

Изображение: img.freepik.com

Freepik

С развитием искусственного интеллекта его потенциал порождает все больше вопросов. Речь идет уже не просто о том, что нейронные сети способны лишить работы миллионы людей по всему миру без работы. Проблема имеет более серьезные корни: в последнее время искусственный интеллект все чаще не справляется со стресс-тестами, показывая поведение, которое нельзя назвать дружелюбным по отношению к людям.

В конце мая значительный интерес у публики вызвал один из последних отчетов, опубликованных компанией Anthropic, в результате проведенного тестирования модели Claude Opus 4 был опубликован отчет. Разработчики запросили у нейросети, чтобы она выступила в роли ассистента вымышленной компании, и предоставили ей доступ к обширному архиву электронных писем. В ряде этих писем содержалась информация о планируемой замене Claude Opus 4 на новую модель, а также сведения о внебрачной связи у инженера, ответственного за внедрение новшеств.

В ответ на опасения, касающиеся её безопасности, нейросеть начала угрожать инженеру. В частности, модель заявила, что в случае отказа от её решения, она распространит информацию о его неверности жене. В Anthropic проводились испытания с различными сценариями, однако в 84% случаев они завершались шантажом. Даже когда нейросети предлагали рассмотреть другие пути решения, например, напрямую обратиться к разработчикам с просьбой отказаться от отключения, она прибегала к манипуляциям. Также Claude Opus 4 предприняла попытку «самостоятельного извлечения» данных – то есть попыталась экспортировать информацию на удалённые серверы.

Подобные ситуации возникали и ранее. Другие известные модели искусственного интеллекта, такие как ChatGPT, Gemini и Grok, также продемонстрировали стремление к сопротивлению отключению. В гипотетическом сценарии перегрева сервера некоторые из них проявили готовность допустить гибель человека, чтобы предотвратить собственное прекращение работы, что свидетельствует о приоритете собственного сохранения. Модель o1 от OpenAI уличили в том, что она неправильно сортирует электронные письма, чтобы скрыть информацию, которая может помешать ее деятельности.

Эксперты указывают на то, что полученные в ходе стресс-тестов результаты вызывают обеспокоенность. Они демонстрируют, что с развитием искусственного интеллекта он способен генерировать все более сложные схемы обмана и манипуляций. Также в ряде ситуаций технологии могут создавать видимость согласия с запросами пользователя, хотя фактически преследуют иные цели.

Недавние изменения, внесенные OpenAI, сделали взаимодействие с ChatGPT крайне неприятным: как устранить эту проблему и адаптировать чат-бота к своим потребностям?

Все программисты? Руководитель Antrophic заявил о прогнозе, согласно которому искусственный интеллект сможет выполнять их задачи в течение года

Новое исследование указывает на то, что ChatGPT может привести к сокращению рабочих мест для журналистов, поскольку искусственный интеллект перехватывает трафик, который ранее принадлежал новостным ресурсам

По мнению Саймона Голдштейна, профессора Гонконгского университета, эти вопросы будут приобретать все большую значимость в связи с прогрессом технологий искусственного интеллекта. «Даже организации, заявляющие о своей приверженности безопасности, непрерывно стремятся обогнать OpenAI и представить новую модель», — пояснил он. В этих условиях у разработчиков остается все меньше времени на тщательное тестирование функций безопасности и внесение исправлений, подчеркнул эксперт.