Потоковая передача данных Google Analytics 4 в BigQuery вызывает проблемы со сбором данных

Мы настроили связь между свойством GA 4 и GoogleBigQuery через интерфейс GA (без дополнительного кода). Он работает нормально, мы видим перенесенные данные в таблицах GBQ, но, тем не менее, мы сталкиваемся с проблемой, как эти данные записываются в эти таблицы.

Если мы посмотрим на любую таблицу, то увидим, что события от разных пользователей могут записываться в одну сессию (и могут быть разные clientIDs (и даже usedID, которые мы передаем при авторизации пользователя)) Посмотреть пример

Это результат выполнения следующего запроса:

SELECT
    event_name,
    user_pseudo_id,
    user_id,
    device.category,
    device.mobile_brand_name,
    device.mobile_model_name,
    device.operating_system_version,
    geo.region,
    geo.city,
    params.key,
    params.value.int_value
FROM `%project_name%.analytics_256374149.events_20210331`, unnest(event_params) AS params
WHERE event_name="page_view"
AND params.value.int_value=1617218965
ORDER BY event_timestamp 

В результате вы видите, что в рамках одной сессии объединяются разные пользователи из разных регионов, с разными устройствами и идентификаторами. Разумеется, такие данные нельзя использовать для целей отчетности. Опять же, это настройка GA4 → BigQuery по умолчанию в интерфейсе GA4 (без надстроек).

Мы не понимаем, в чем ошибка (в импорте, в запросах или еще где-то) и хотели бы получить консультацию по этому вопросу.

Спасибо.


person Roman    schedule 07.04.2021    source источник


Ответы (1)


Вы должны посмотреть на комбинацию user_pseudo_id и event_param ga_session_id. Эта комбинация уникальна и используется для измерения уникальных сеансов на ресурсе.

Например, этот запрос подсчитывает количество уникальных имен событий в каждом сеансе:

SELECT
  user_pseudo_id,
  (SELECT value.int_value FROM UNNEST(event_params) WHERE key = 'ga_session_id') AS ga_session_id,
  COUNT(DISTINCT event_name) AS unique_event_name_count
FROM `<project>.<dataset>.events_*`
GROUP BY user_pseudo_id, ga_session_id
person Minhaz Kazi    schedule 30.04.2021