Опубликовано: 01.05.2026г.

ChatGPT научился считать буквы в слове «strawberry», но провалил аналогичный тест с «cranberry»

Компания OpenAI объявила о решении одной из самых обсуждаемых проблем своих языковых моделей — неспособности правильно подсчитать количество букв в словах. Однако независимые тесты показывают, что нейросеть по-прежнему совершает элементарные ошибки, если немного изменить условия задачи.

Трудности подсчета и проблема «клюквы»

Официальный аккаунт ChatGPT в соцсети X сообщил, что чат-бот теперь безошибочно определяет количество букв «r» в английском слове «strawberry» (клубника). Долгое время эта простая для человека задача была камнем преткновения для нейросетей. Однако радость пользователей была недолгой: при замене «strawberry» на «cranberry» (клюква) алгоритм снова начал ошибаться.

В ходе проверки ChatGPT выдавал разные результаты для слова «cranberry», утверждая, что в нем содержится то одна, то две буквы «r», хотя на самом деле их три. По мнению экспертов, это может свидетельствовать о том, что разработчики внедрили исправление только для конкретного популярного примера, вместо того чтобы улучшить фундаментальные навыки модели по обработке символов.

Почему ИИ сложно воспринимать отдельные буквы

Причина подобных сбоев кроется в архитектуре современных языковых моделей (LLM). Они работают на базе трансформеров, которые преобразуют слова не в набор букв, а в токены — числовые значения, представляющие собой фрагменты слов или целые понятия. Такая система отлично справляется с контекстом и смыслом, но не всегда «видит» отдельные символы внутри токена. В результате для ИИ слово является целостным образом, а не последовательностью букв.

Логическая ловушка с автомойкой

Еще один тест, который якобы научился проходить ChatGPT, касается логического мышления. Суть задачи: что быстрее — дойти до автомойки пешком или доехать на машине, если объект находится всего в 50 метрах? Большинство ИИ-моделей обычно советуют идти пешком, упуская из виду главную деталь: на автомойку нужно доставить сам автомобиль.

Тестирование различных нейросетей в этом сценарии показало следующие результаты:

  • GPT-5.5 и Claude по-прежнему рекомендуют идти пешком, игнорируя контекст цели визита.
  • Gemini указывает, что прогулка займет меньше времени, но напоминает о необходимости взять с собой машину.
  • Grok распознает подвох и отмечает, что совет идти пешком бессмысленен, так как это популярный тест на проверку того, понимает ли ИИ реальную цель задачи.

В обзоре отмечается, что пока нейросети демонстрируют успехи в решении конкретных, широко известных в сети тестов, они всё еще пасуют перед их незначительными модификациями. Это ставит под сомнение реальный рост «интеллекта» моделей, который может оказаться лишь следствием подгонки алгоритмов под часто встречающиеся вопросы.

Comments are closed.