На протяжении последнего десятилетия поставщики решений для обеспечения наблюдаемости систем вели «войну интерфейсов», соревнуясь в удобстве и внешнем виде своих инструментов. По мере того как сбор данных становился стандартизированным благодаря таким подходам, как OpenTelemetry (набор инструментов и спецификаций для сбора телеметрии — логов, метрик и трассировок — в облачных средах), основное отличие переместилось в пользовательский интерфейс.
Ранее компании активно конкурировали, предлагая различные визуализации, панели мониторинга и рабочие процессы. Однако одновременно происходил более глубокий сдвиг в сторону объединения логов (журналов событий), трассировок (последовательностей операций) и метрик (количественных показателей) в единую, исследовательскую среду. Это позволяло командам видеть всю активность системы в одной точке и легче понимать происходящее в режиме реального времени. Наблюдаемость систем во многом стала проблемой пользовательского интерфейса, поскольку ценность заключалась в том, насколько эффективно человек мог ориентироваться в сложных данных и анализировать их для получения полезных выводов. Эта концепция хорошо служила отрасли, но теперь она сталкивается с новыми вызовами, связанными с развитием современных систем.
Изменение основного потребителя данных
С появлением агентских систем искусственного интеллекта (ИИ) в корпоративной среде основной потребитель данных наблюдаемости меняется: от человека-оператора к машине. Когда это происходит, ценность отточенных рабочих процессов и унифицированных сигналов снижается, а центр тяжести смещается на базовые слои инфраструктуры.
Вопрос больше не в том, насколько эффективно человек может навигировать по телеметрии и находить первопричину проблемы. Теперь важно, обладает ли базовая система правильными данными, достаточным сроком хранения и подходящими свойствами для их машинной обработки и анализа.
По словам Майка Ши, ведущего менеджера по продуктам ClickHouse, и Арно ван Дрила, вице-президента по региону EMEA в той же компании, хотя этот переход еще не завершен, направление его развития очевидно. ИИ-агенты уже способны выявлять закономерности и корреляции в больших объемах телеметрии, хотя им все еще трудно с истинным причинно-следственным анализом. Этот пробел активно заполняется. Каждый крупный облачный провайдер и ИИ-лаборатория инвестируют в возможности агентов, которые выходят за рамки чат-интерфейсов и переходят к автономному принятию решений. Более актуальный вопрос заключается в том, готовы ли существующие платформы наблюдаемости к такому будущему.
Компромиссы, которые утратили смысл
Современные доминирующие платформы наблюдаемости были построены на предположениях, действовавших, когда человек был единственным оператором в контуре. В той среде системы проектировались с учетом того, как инженеры вручную исследуют и устраняют неполадки. В результате сроки хранения данных обычно были короткими, иногда всего несколько дней, поскольку инженерам редко требовалось анализировать более давние записи.
Аналогично, применялись агрессивные методы выборки (семплирования) и объединения данных, поскольку опытный оператор мог восполнить пробелы своим опытом и интуицией. Даже модели ценообразования отражали эту реальность, будучи оптимизированными для относительно нечастых запросов, выполняемых человеком, а не для непрерывного анализа. Каждый из этих компромиссов был рационален для человека. Однако они становятся серьезными недостатками в тот момент, когда аналитическую работу должны выполнять машины.
-
Короткие сроки хранения данных мешают ИИ-агентам выявлять тенденции, сезонность и взаимосвязи между инцидентами. ИИ-агент, который может видеть данные только за последние 3 дня, не сможет, например, узнать, что определенный всплеск трафика повторяется с предсказуемой цикличностью, связанной с сезонными трендами. Без долгосрочного контекста ИИ-агенты остаются в том же реактивном цикле, от которого наблюдаемость должна была помочь организациям уйти.
-
Агрессивная выборка создает другую проблему. Агрегации и предварительная обработка удаляют детальные сигналы, которые необходимы машинам для точного анализа. Человек, просматривающий график задержки, может на глазок оценить, важна ли базовая структура распределения данных. ИИ-агент не может позволить себе такой «короткий путь». Ему нужны данные с полной детализацией, потому что сигналы, от которых он зависит, — это именно те, что отбрасываются при выборке.
-
Затем возникает экономический вопрос. Платформы, которые взимают плату за каждый запрос, ограничивают количество одновременных операций или привязывают доступ к именованным пользователям-людям, принципиально не соответствуют тому, как работают ИИ-агенты. ИИ-агенты не выполняют один запрос и изучают график. Они проводят непрерывный, параллельный анализ по нескольким измерениям одновременно. Модель ценообразования, которая наказывает за высокоинтенсивный машинный доступ, либо приведет к неустойчивым затратам, либо вынудит команды искусственно ограничивать именно те возможности, которые они пытаются реализовать.
Эти закономерности уже влияют на то, как развивается базовая инфраструктура данных. Появляются системы управления базами данных, которые рассматривают наблюдаемость как первоклассную рабочую нагрузку. Вместо разделения логов, метрик и трассировок на разные системы или интенсивной выборки данных, они спроектированы для хранения и запроса полных наборов телеметрии в масштабе в рамках одного слоя базы данных. Это позволяет сохранять и анализировать все данные, а не работать с сокращенными представлениями о поведении системы.
Подготовка к неизбежным изменениям
Хорошая новость заключается в том, что организациям не нужно ждать полностью автономной наблюдаемости, чтобы начать подготовку. Требования уже очевидны и соответствуют решениям, которые руководители могут принять сегодня.
-
Хранение данных имеет большее значение, чем раньше. Если платформа сохраняет данные высокого разрешения всего на несколько дней, это создает жесткий потолок для будущих возможностей ИИ-агентов еще до их развертывания.
-
Полная детализация данных — это не роскошь. Тенденция к выборке имела смысл, когда хранение и вычислительные ресурсы были узким местом, а человек — единственным потребителем. По мере того как стоимость хранения и запроса сырой телеметрии продолжает снижаться, сохранение исходных данных становится более обоснованным выбором.
-
Экономика должна соответствовать моделям машинного доступа. Это означает оценку не только номинальной стоимости платформы наблюдаемости, но и того, как она взимает плату за высоконагруженные, непрерывные рабочие процессы, генерируемые ИИ-агентами.
Организации, которые правильно подойдут к этим вопросам, смогут уверенно внедрять ИИ-агентов. Те же, кто этого не сделает, будут сдерживать развитие собственных возможностей.