Почему ChatGPT запретили упоминать о гоблинах и гремлинах?

Автор фото, Getty Images

Разработчик ChatGPT, OpenAI, был вынужден приказать некоторым своим инструментам искусственного интеллекта прекратить вспоминать гоблинов, после того как оказалось, что этот термин начал случайно появляться в ответах.

В четверг в блоге компания сообщила, что заметила увеличение упоминаний мифологических существ, таких как гремлины, в метафорах, используемых ChatGPT и другими инструментами, работающими на ее последней флагманской модели GPT-5.

После того, как пользователи и сотрудники сообщили о проблемах, которые описываются как “маленькие гоблины”, OpenAI заявила, что приняла меры для решения этого, в частности, сообщила своему агенту кодирования Codex не упоминать этих существ, если это не уместно.

Было обнаружено, что “занудная личность” ( “nerdy personality” ), разработанная для ChatGPT, бессознательно была стимулирована вознаграждать упоминания о гоблинах.

Это показывает трудности, с которыми сталкиваются компании, занимающиеся искусственным интеллектом, в решении проблемы потенциальных возможностей систем и их обучения в контексте языковых особенностей.

OpenAI заявила, что впервые заметила увеличение упоминаний гоблинов, гремлинов и других существ после запуска GPT-5. 1 в ноябре.

“Пользователи жаловались на то, что модель удивительно фамильярна в разговорах, что побудило расследовать конкретные вербальные особенности”, – написала компания в своем блоге в четверг.

Она добавила, что после того, как исследователь, видевший несколько упоминаний о “гоблине”, попросил проверить это, разработчики обнаружили, что появление термина в ответах ChatGPT выросло на 175% с момента запуска GPT-5. 1.

Также они обнаружили, что упоминания о “гремлине” выросли на 52%.

Увеличение, хотя и значительное, может объясняться небольшим количеством ответов в целом.

По данным OpenAI, “один” маленький гоблин “в ответе может быть безвредным, даже волшебным”, но стремительный рост их появления требовал расследования.

“Еноты, огры, тролли, голуби”

Автор фото, Getty Images

Перед публикацией сообщения в блоге OpenAI, в котором описывалась проблема, некоторые пользователи социальных сетей заметили странную деталь среди строк кода обращаться при взаимодействии с пользователями.

Помимо рекомендации избегать банальностей, в нем также отмечалось, что Codex “никогда не должен говорить о гоблинах, гремлинах, енотах, троллах, обогреве, голубях или других животных или существах, если это не абсолютно и однозначно релевантно запросу пользователя”.

Пользователь Reddit, опубликовавший сообщение, назвал это “действительно сумасшедшим”.

Хотя некоторые пользователи в других социальных сетях предполагали, что это может быть разработано для создания ажиотажа вокруг инструментов искусственного интеллекта, исследователь компании отрицал это, написав в ответ пользователю на X: “это действительно не маркетинговый трюк”.

В своем блоге OpenAI сообщила, что добавила инструкцию для ограничения “странной склонности Codex” и его базовой модели к гоблинам.

Основная проблема, объяснила компания, очевидно, возникла при обучении моделей общению в стиле определенных личностей – в этом случае с их “занудной личностью”.

Компания обнаружила, что эта система вознаграждала упоминания гоблинов, гремлинов и других существ в метафорах.

Тестирование показало, что эта личность отвечает за 66,7% всех упоминаний “гоблинов” в ChatGPT.

Этот трюк может проникнуть в более широкое обучение модели, если его вознаградить в одном случае и усилить в другом.

Режим гоблина

Этот шаг происходит на фоне более широкого смещения отрасли в сторону того, чтобы сделать чат-ботов с ИИ более ориентированными на личность и болтливыми. Это должно повысить вовлеченность пользователей.

Однако эксперты предупреждают, что потенциал ИИ-личностей придумывать вещи – или “галюцинировать”, как это описывает отрасль – может усиливаться.

Недавнее исследование Оксфордского интернет-института выявило, что точная настройка моделей для более теплой и дружеской личности может привести к “компромиссу точности”, когда системы совершают больше ошибок или подтверждают ложные убеждения пользователя.

Эксперты также предостерегают пользователей от восприятия часто обыденных утверждений чат-ботов за чистую монету, особенно когда речь идет о здоровье и медицинских советах.

Но, как и блажь OpenAI с гоблинами, генеративные ошибки ИИ иногда могут быть более странными и безвредными.

В мае 2024 года чат-бот Google с искусственным интеллектом был широко высмеян за то, что говорил пользователям, что можно есть камни и “клеить пиццу”.