Я только начал использовать Druid, особенно с RDruid, и, поскольку наш набор данных довольно большой, я хотел бы получить меньшую рандомизированную выборку из БД.
Используя RDruid, у меня есть запрос, который выглядит так:
res2 = druid.query.groupBy(
url = druid.url("hostname", port=8080),
dataSource = "playback",
intervals = interval(
fromISO("2013-09-20T00:00:00"),
now()
),
dimensions = list(dimension("platformInfo_deviceType"), dimension("isp")),
granularity="hour",
aggregations = list(
sum(metric("streamStartCount"))
)
)
Я хотел бы, чтобы он создавал почасовые/минутные сводки на случайной части базовых данных.
Это вообще возможно? Может быть, я мог бы попробовать что-то вроде назначения случайного 4-значного числа/строки базовым записям данных и применить фильтр, который сводит только записи с правилами соответствия.
Например. если случайная строка > 8888, то будут выбраны все записи между 8889 и 9999.
Любые идеи?