Компания OpenAI объявила о решении одной из самых обсуждаемых проблем своих языковых моделей — неспособности правильно подсчитать количество букв в словах. Однако независимые тесты показывают, что нейросеть по-прежнему совершает элементарные ошибки, если немного изменить условия задачи.
Трудности подсчета и проблема «клюквы»
Официальный аккаунт ChatGPT в соцсети X сообщил, что чат-бот теперь безошибочно определяет количество букв «r» в английском слове «strawberry» (клубника). Долгое время эта простая для человека задача была камнем преткновения для нейросетей. Однако радость пользователей была недолгой: при замене «strawberry» на «cranberry» (клюква) алгоритм снова начал ошибаться.
В ходе проверки ChatGPT выдавал разные результаты для слова «cranberry», утверждая, что в нем содержится то одна, то две буквы «r», хотя на самом деле их три. По мнению экспертов, это может свидетельствовать о том, что разработчики внедрили исправление только для конкретного популярного примера, вместо того чтобы улучшить фундаментальные навыки модели по обработке символов.
Почему ИИ сложно воспринимать отдельные буквы
Причина подобных сбоев кроется в архитектуре современных языковых моделей (LLM). Они работают на базе трансформеров, которые преобразуют слова не в набор букв, а в токены — числовые значения, представляющие собой фрагменты слов или целые понятия. Такая система отлично справляется с контекстом и смыслом, но не всегда «видит» отдельные символы внутри токена. В результате для ИИ слово является целостным образом, а не последовательностью букв.
Логическая ловушка с автомойкой
Еще один тест, который якобы научился проходить ChatGPT, касается логического мышления. Суть задачи: что быстрее — дойти до автомойки пешком или доехать на машине, если объект находится всего в 50 метрах? Большинство ИИ-моделей обычно советуют идти пешком, упуская из виду главную деталь: на автомойку нужно доставить сам автомобиль.
Тестирование различных нейросетей в этом сценарии показало следующие результаты:
- GPT-5.5 и Claude по-прежнему рекомендуют идти пешком, игнорируя контекст цели визита.
- Gemini указывает, что прогулка займет меньше времени, но напоминает о необходимости взять с собой машину.
- Grok распознает подвох и отмечает, что совет идти пешком бессмысленен, так как это популярный тест на проверку того, понимает ли ИИ реальную цель задачи.
В обзоре отмечается, что пока нейросети демонстрируют успехи в решении конкретных, широко известных в сети тестов, они всё еще пасуют перед их незначительными модификациями. Это ставит под сомнение реальный рост «интеллекта» моделей, который может оказаться лишь следствием подгонки алгоритмов под часто встречающиеся вопросы.