У меня = ~ 20 миллиардов событий. Событие состоит из: одного ключа (SSN), одной даты и информации о событии. У меня есть 5 типов событий.
Шаблон чтения: мне нужно получить все события с одного ключа до определенной даты.
Шаблон записи: всего одна массовая загрузка один раз в день.
Представьте себе базу данных:
SSN;date(yyyymmdd);info
1;20140101;A
1;20140105;B
2;20140106;A
1;20140103;C
Итак, если мой запрос: (SSN = "1" и date = "20140104"), мне нужно получить:
1;20140101;A
1;20140103;C
Мой первый подход:
- Ключ строки = SSN + дата.
- Одна семья с множеством столбцов для хранения информации. (информация: cep, информация: имя, ...)
Кто-нибудь видит в этом подходе проблемы с производительностью? хотя мой ключ состоит из даты, я не думаю, что это вызывает «монотонно увеличивающиеся значения», потому что сначала у меня есть SSN.