У меня есть два набора данных
Master.txt
ID,StartTime
1,2013-04-01 00:01:37
2,2013-04-01 00:01:37
Transaction.txt
ID,SurveyDate,Attr1
1,2013-04-01 00:03:40,Success
2,2013-05-01 00:01:30,Success
Я хочу объединить эти два набора данных с ID
и (SurveyDate-StartTime
‹24 часа) и добавить Attr1
в Master.
Я загрузил Master и Transaction с помощью Load in pig, и я могу присоединиться по идентификатору, но я не могу найти транзакции, которые находятся в течение 24 часов с Master.StartTime
.
Master.txt
имеет значительное количество записей, в которых транзакций очень мало.
вот код
master=load 'hdfs://localhost:9000/user/xyz/contact/master' using PigStorage(',') as (ID,StartTime)
transaction=load 'hdfs://localhost:9000/user/xyz/contact/transaction' using PigStorage(',') as
(ID,SurveyDate,Attr1)
combine=join master by ID left outer, transaction ID
Это пока что у меня есть, как я понимаю из документации, условия не допускаются при объединении наборов данных. Поэтому не знаю, как мне добавить что-то вроде Master.StartTime-Transaction.SurveyDate ‹= 24hrs