Ольга Карпова , редактор CyberBrain

Почему многие внедряют ИИ, но только у единиц он работает на бизнес-результат

Рынок обсуждает модели атрибуции, ИИ-оптимизацию, data driven подходы. Все пытаются внедрить GPT в маркетинг и автоматизировать управление рекламой, забывая одну вещь.

Никакой ИИ и модели атрибуции не взлетят, если нет нормально собранных данных — или они собраны так плохо, что слои над ними не будут корректно работать.

Мы говорим об этом не первый год — ничего не будет работать без качественно собранной аналитики. Но на волне массовых попыток компаний внедрить у себя ИИ тема снова актуальна.

Почему ИИ показывает три продажи, если у нас по факту их было десять?

В расчётах и ответах ИИ будет учитывать только три, если столько отражено в данных. Он работает не с реальностью, а с тем, что записано в системе. И если в системе дубли событий, нет стабильного идентификатора, а часть заявок вообще не попала в учёт, выводы ИИ будут основаны именно на этой искажённой информации.

При таком раскладе бессмысленно спорить о выборе модели атрибуции или качестве ML-алгоритма. Любая модель считает внутри того периметра данных, который ей дали. Периметр неполный или логически разорван? Результат будет искажён.

Когда ИИ работает на неполных или неправильно собранных данных, он не автоматизирует маркетинг, а ускоряет принятие неправильных решений.

Цифры не сходятся, ИИ не работает, у нас плохие данные — рассказываем, что с этим делать

Давайте сначала найдём корень проблемы. Как показывает опыт, глобально есть две причины низкого качества данных:

1. Данные не проверяют, то есть они принимаются как есть, без регулярной сверки и контроля. События передаются, продажи фиксируются, но никто не контролирует их качество.

• CRM показывает 120 продаж, а в аналитике — 98, и никто не задаёт вопросов.

• Часть заявок не передаётся из формы на сайте, но это замечают через полгода.

• Рекламные кабинеты считают одни цифры, внутренняя отчётность — другие, расхождение объясняют «особенностями системы».

• Статусы сделок меняются, а в аналитике они остаются «в работе».

2. Данные неправильно связывают. Они есть, но между ними нет корректной связи: стабильного идентификатора, единой логики склейки событий, согласованной модели данных.

• Клик по рекламе есть, заявка есть, но они не связаны между собой.

• Лид в CRM не связан с дальнейшим фактом оплаты.

• Пользователь с телефона и тот же человек с ноутбука считаются как разные люди.

• Офлайн-продажа не склеена с онлайн-источником.

Как собирать данные для аналитики так, чтобы можно было внедрять ИИ и другие инструменты на уровне компании?

Готовы предложить вам два решения:

1. Учиться правильно собирать данные своими силами

• У нас есть гайд по оптимизации медийной рекламы — доска в Miro, которая, помимо самого гайда, содержит инструкции и памятки для работы.

• Там есть раздел Сквозная аналитика → как эффективно самому собрать post-view и post-click данные для аналитики. Внутри — подробный алгоритм для сбора, валидации, склейки и хранения.

• Написано всё человеческим языком, есть наглядные скриншоты. Алгоритм собирал наш главный аналитик.

Получить гайд можно через бота: @cyberbrain_msc_bot

2. Обратиться за помощью

Можно привлечь интегратора — команду, которая выстроит архитектуру данных и будет поддерживать их качество. Если у вас что-то не получается, приходите к нам. Мы уже решили аналогичную задачу для Газпрома, Леманы ПРО, ГК ФСК и других крупных компаний.

«А у вас бывают ошибки в данных?»

Мы работаем как агрегатор и зависим от первоисточников. Когда в источнике ошибка или искажение, оно попадает в нашу систему. Мы это не игнорируем — наша задача как раз в том, чтобы разобраться, найти расхождения и скорректировать логику передачи. Это не разовая настройка, а постоянная работа, которую мы делаем для вас.

Качество данных — это фундамент для любых дальнейших надстроек. Мы системно инвестируем в него время, деньги и экспертизу, чтобы на выходе аналитика отражала реальную картину маркетинга и давала бизнесу выводы для оптимизации.

Как мы проверяем качество данных — отчёт о точности в дашборде CyberBrain

Зачем вообще нужно проверять качество данных? Давайте приведём простой пример.

В системе финальный этап сделки может быть зафиксирован как Выдача, Завершено или Этап завершён — из-за разных названий невозможно отследить вклад сделок в итоговую сумму. Бизнес даже не всегда может точно посчитать, сколько зарабатывает (или теряет) на рекламе — это не редкость.

Чтобы у вас был полный путь клиента для точной оптимизации и корректной работы надстроек вроде ИИ-ботов, мы постоянно улучшаем data quality — процесс контроля и обеспечения нужного уровня качества данных. На бэке это гигантский объём работы, но снаружи — простой и удобный лист точности в дашборде.

Что показывает отчёт точности CyberBrain

Он позволяет определить качество данных через оценку расхождения между данными в нашей системе и в источнике.

Как рассчитывается показатель точности

• Сначала мы ищем процент расхождения — разницу между источником данных и нашей базой.

• Показатель точности = 100% минус процент расхождения.

• Если точность выше 97%, расхождения в пределах нормы.

Под анализом точности лежит масштабный модуль — валидатор

Он ежедневно мониторит качество получаемых данных из всех источников: Директ, Метрика, медийные системы, CRM и другие.

Как валидатор отслеживает расхождения

• Получает из источника логи отдельных событий и общую отчётную статистику.

• Считает итог по всем событиям и проверяет, совпадает ли он с официальной суммой источника.

• Если из логов получилось, например, 9 842 сеанса, а в отчёте источника указано 10 000 — есть расхождения.

Эта проверка показывает, что:

– либо мы не полностью загрузили данные

– либо источник ещё не досчитал период

– либо есть техническая ошибка в обработке

Если валидатор видит расхождения, он запрашивает данные из источника, чтобы компенсировать разрыв. Поверх этого есть ручной мониторинг и специальный бот — мы рассказывали о нём в конце этого поста.

Почему вообще возникают проблемы с данными? Называем частые причины

Если в данных ошибка, клиент сразу уверен, что мы как валидатор неправильно их скачали, обработали или сохранили. Такое действительно возможно — но это редкие случаи. Обычно причина гораздо проще: данные оказались у нас в таком виде, потому что именно в таком виде они лежали у клиента.

Самые частые причины проблем с данными

Серьёзно, 9/10 случаев

Некорректные названия кампаний. Лишние символы, забыли поменять UTM-разметку или, наоборот, обновили её прямо в процессе ведения рекламы.
Отсутствие единых правил наименования кампаний. Если команды называют кампании по-разному, потом их нельзя корректно сопоставить с бюджетами.
Плохо склеенные данные. Источники объединены без единых правил идентификации пользователя или сделки.
Проблемы с лимитами на получение данных из источников. Системы не успевают полностью отдавать данные или делают это с задержкой.
Хаос в данных. Нет описания внутренних бизнес-сущностей и понимания, где и что лежит.

Если не заниматься качеством данных, любая аналитика теряет смысл. Когда в системе отражено 3 продажи, а по факту их было 10, все дальнейшие расчёты будут опираться именно на эти 3.

Правильно собранные и уложенные данные — базис для оптимизации бюджетов и автоматизации аналитики. Мы рядом, чтобы помочь и ответить на вопросы. Надеемся, было полезно!

→ hello@cybrain.io