Redshift: найти предыдущие строки, которые удовлетворяют условию для создания последовательности

Я уже неделю пытаюсь найти решение следующей загадки Redshift (думаю, я стал одержим ею):

В Redshift есть таблица событий («event_user_item»), в которой пользователи запускают события для определенных элементов, вводя код элемента, который отображается в столбце event_value.

Неудачная отправка состоит из последовательности event_type PageLoad-ItemCode-ErrorResponse, но такие типы событий не обязательно являются последовательными, что означает, что между каждым из них может быть ряд других типов событий за ID пользователя.

Я публикую небольшой отрывок, основанный на 3 разных идентификаторах user_id, который должен иллюстрировать соответствующие сценарии с упором на неудавшиеся отправления.

ord_num event_type          event_value     user_id     event_datetime
1       PageLoad                            124         03/09/2018 21:48:39
2       ItemCode            LG56731         124         03/09/2018 21:48:53
4       Details1PageLoad                    124         03/09/2018 21:48:56
8       PageLoad                            124         03/09/2018 22:02:23
9       ItemCode            GU07019         124         03/09/2018 22:02:32
10      ErrorResponse       Some message    124         03/09/2018 22:02:32
51      PageLoad                            228         04/09/2018 12:38:30
52      ItemCode            EQ23487         228         04/09/2018 12:38:33
53      ErrorResponse       Some message    228         04/09/2018 12:38:34
54      PageLoad                            304         04/09/2018 15:43:14
55      ItemCode            OB68102         304         04/09/2018 15:43:57
56      ErrorResponse       Some message    304         04/09/2018 15:43:58
57      ItemCode            PB68102         304         04/09/2018 15:44:21
58      ErrorResponse       Some message    304         04/09/2018 15:44:22
59      PageLoad                            304         05/09/2018 11:19:37
60      ItemCode            OB68102         304         05/09/2018 11:20:17
62      Details1PageLoad                    304         05/09/2018 11:20:20

ЗАДАЧА: найти количество неудачных отправок на user_id на ItemCode. Важно не путать коды элементов из Неудачных и успешных отправок. Кроме того, с одним и тем же кодом элемента может быть несколько записей об ошибке.

Я не эксперт в Redshift, особенно в его оконных функциях, но первой идеей, которую я пытался придерживаться, была функция LAG. Для этого я намеревался идентифицировать последовательности ord_nums, которые можно было бы считать, например

ord_num event_type          event_value     user_id event_datetime           error?     sequence
1       PageLoad                            124     03/09/2018 21:48:39     
2       ItemCode            LG56731         124     03/09/2018 21:48:53     
4       Details1PageLoad                    124     03/09/2018 21:48:56     
8       PageLoad                            124     03/09/2018 22:02:23     
9       ItemCode            GU07019         124     03/09/2018 22:02:32     
10      ErrorResponse       Some message    124     03/09/2018 22:02:32     1       8-9-10
51      PageLoad                            228     04/09/2018 12:38:30     
52      ItemCode            EQ23487         228     04/09/2018 12:38:33     
53      ErrorResponse       Some message    228     04/09/2018 12:38:34     1       51-52-53
54      PageLoad                            304     04/09/2018 15:43:14     
55      ItemCode            OB68102         304     04/09/2018 15:43:57     
56      ErrorResponse       Some message    304     04/09/2018 15:43:58     1       54-55-56
57      ItemCode            PB68102         304     04/09/2018 15:44:21     
58      ErrorResponse       Some message    304     04/09/2018 15:44:22     1       54-57-58
59      PageLoad                            304     05/09/2018 11:19:37     
60      ItemCode            OB68102         304     05/09/2018 11:20:17     
62      Details1PageLoad                    304     05/09/2018 11:20:20     

Таким образом, по user_id должно быть следующее количество:

user_id     nr_failed_submissions   
124         1   
228         1   
304         2

Однако, как видно из приведенного выше набора данных и ожидаемого результата, невозможно предсказать, сколько записей нужно переместить назад, мне нужно дополнительное условие, которое нельзя поместить в LAG ...

Я перепробовал много вариантов, но ни один из них не подошел.

Были опубликованы очень полезные и содержательные посты.

но до сих пор мне не удалось объединить их все в решение, которое бы работало. Должен быть способ сделать это в Redshift?


person Lamia    schedule 03.10.2018    source источник


Ответы (2)


Этот запрос создаст «временные диапазоны», где time1 представляет собой временную метку события PageLoad, а time2 представляет собой временную метку следующего события PageLoad для этого пользователя:

WITH timeranges AS
(
  SELECT A.user_id,
         A.event_datetime AS time1,
         nvl(MAX(B.event_datetime),'2099-01-01') AS time2
  FROM foo AS A
    LEFT JOIN foo AS B
           ON A.user_id = B.user_id
          AND A.event_datetime < B.event_datetime
          AND A.event_type = B.event_type
  WHERE A.event_type = 'PageLoad'
  GROUP BY A.user_id,
           A.event_datetime
)

Этот запрос основан на этом, чтобы связать каждое событие 'ItemCode' с меткой времени соответствующего ему 'PageLoad':

SELECT timeranges.time1 AS pageloadtime,
       foo.*
FROM foo
  LEFT JOIN timeranges
         ON foo.event_datetime >= timeranges.time1
        AND foo.event_datetime < timeranges.time2
WHERE foo.event_type = 'ItemCode'

Этот запрос определяет, попали ли какие-либо события ErrorResponse в каждый из этих диапазонов:

SELECT timeranges.time1 AS pageloadtime,
       timeranges.user_id,
       BOOL_OR(foo.event_type = 'ErrorResponse') AS has_error
FROM timeranges
  LEFT JOIN foo
         ON event_datetime > time1
        AND event_datetime < time2
GROUP BY timeranges.time1,
         timeranges.user_id
HAVING has_error;

И это должно дать нам все, что нам нужно - для каждого события загрузки страницы мы знаем (1) есть ли ошибка в этой загрузке страницы и (2) мы знаем все события ItemCode, связанные с этой полезной нагрузкой. Объединение этих двух наборов результатов должно дать нам то, что мы ищем.

Из-за особенности красного смещения у меня возникли проблемы с попыткой напрямую соединить эти два набора данных, поэтому мне пришлось создать две временные таблицы. Этот ужасно отформатированный запрос дал мне ожидаемые результаты:

create temporary table items_per_pageload as 
with timeranges as (select A.user_id, A.event_datetime as time1, nvl(max(B.event_datetime), '2099-01-01') as time2 from event_user_item as A left join event_user_item as B on A.user_id=B.user_id and A.event_datetime < B.event_datetime and A.event_type=B.event_type
where A.event_type='PageLoad' group by A.user_id, A.event_datetime)
select timeranges.time1 as pageloadtime, event_user_item.* from event_user_item left join timeranges on event_user_item.event_datetime>=timeranges.time1 and event_user_item.event_datetime<timeranges.time2 where event_user_item.event_type='ItemCode'

create temporary table pageloads_with_errors as 
with timeranges as (select A.user_id, A.event_datetime as time1, nvl(max(B.event_datetime), '2099-01-01') as time2 from event_user_item as A left join event_user_item as B on A.user_id=B.user_id and A.event_datetime < B.event_datetime and A.event_type=B.event_type
where A.event_type='PageLoad' group by A.user_id, A.event_datetime)
select timeranges.time1 as pageloadtime, timeranges.user_id, bool_or(event_user_item.event_type='ErrorResponse') as has_error from timeranges left join event_user_item on event_datetime > time1 and event_datetime < time2
group by timeranges.time1, timeranges.user_id having has_error;

select count(1), user_id, event_value from (
select items_per_pageload.* from items_per_pageload join pageloads_with_errors on items_per_pageload.user_id = pageloads_with_errors.user_id and items_per_pageload.pageloadtime = pageloads_with_errors.pageloadtime 
) group by user_id, event_value
person Jason Rosendale    schedule 03.10.2018
comment
Джейсон, большое спасибо за подробное объяснение, это очень важно в таких громоздких ситуациях! Я сейчас прохожу через это и протестирую это на более широком наборе данных. Я дам вам знать, как это происходит! - person Lamia; 04.10.2018
comment
В случае user_id 124 из приведенного выше отрывка метод считает ErrorResponse неверным и присваивает has_error? первого PageLoad (произошедшего 09.03.2018 21:48:39). Следовательно, ItemCode LG56731 считается неудачным, но это не так. Его отправка прошла успешно (Details1PageLoad, 09.03.2018, 21:48:56). Я думаю, что BOOL_OR присваивает TRUE всем записям, если в какой-либо из них есть ошибка. Мы почти у цели, если бы только те удачные можно было исключить ... - person Lamia; 04.10.2018
comment
Я переработал ваш запрос для создания pageloads_with_errors, так что он ищет ошибки между двумя последовательными значениями времени PageLoad, т.е. time1 и next_load_time (LEAD (A.event_datetime, 1) over (раздел по A.user_id, порядок A.event_datetime) как next_load_time) вместо поиска между временем загрузки страницы и максимальным временем загрузки страницы (time1 и time2). Таким образом, для user_id 124 засчитывается только один ErrorResponse. Если next_load_time пусто, я сравниваю time1 и time2: left join event_user_item для event_datetime ›time1 и event_datetime‹ nvl (next_load_time, time2) - person Lamia; 04.10.2018

Следующие подходы и запросы, основанные на ответе 1 Джейсона Розендейла, работают для меня так, как должны:

create temporary table items_per_pageload as 
with timeranges as (
  select A.user_id
    ,A.event_datetime as time1
    ,nvl(max(B.event_datetime), '2099-01-01') as time2
    ,LEAD(A.event_datetime,1) over (partition by A.user_id order by A.event_datetime) as next_load_time 
  from event_user_item as A 
  left join event_user_item as B on A.user_id=B.user_id and A.event_datetime < B.event_datetime and A.event_type=B.event_type
  where A.event_type='PageLoad' 
  group by A.user_id, A.event_datetime
  )
select timeranges.time1 as pageloadtime, event_user_item.* 
from event_user_item left join timeranges on event_user_item.event_datetime>=timeranges.time1 and event_user_item.event_datetime<nvl(timeranges.next_load_time,timeranges.time2) 
where event_user_item.event_type='ItemCode';

create temporary table pageloads_with_errors as 
with timeranges as (
  select A.user_id
    ,A.event_datetime as time1
    ,nvl(max(B.event_datetime), '2099-01-01') as time2
    ,LEAD(A.event_datetime,1) over (partition by A.user_id order by A.event_datetime) as next_load_time 
  from event_user_item as A left join event_user_item as B on A.user_id=B.user_id and A.event_datetime < B.event_datetime and A.event_type=B.event_type
  where A.event_type='PageLoad' 
  group by A.user_id, A.event_datetime
  )
select timeranges.time1 as pageloadtime,timeranges.user_id,bool_or(event_user_item.event_type='ErrorResponse') as has_error 
from timeranges 
left join event_user_item on event_datetime > time1 and event_datetime < nvl(next_load_time,time2)
group by timeranges.time1,timeranges.user_id 
having has_error;

/* final counts */
select count(1), user_id, event_value from (
    select items_per_pageload.* 
    from items_per_pageload 
    join pageloads_with_errors on items_per_pageload.user_id = pageloads_with_errors.user_id and items_per_pageload.pageloadtime = pageloads_with_errors.pageloadtime 
) 
group by user_id, event_value;
person Lamia    schedule 08.10.2018