Недавно я столкнулся со случаем, когда Кассандра идеально подходит для хранения событий, основанных на времени, с настраиваемыми ttls для каждого типа события (другим решением было бы сохранить его в hadoop и вести учет вручную (ttls и прочее, IMHO очень сложная идея) или переключиться на hbase). Вопрос в том, насколько хорошо поддержка Cassandra MapReduce работает из коробки без редакции Datastax Enterprise.
Кажется, что они много вложили в CassandraFS, но я спрашиваю себя, активно ли поддерживается и масштабируется ли обычный Pig CassandraLoader (поскольку он, кажется, не делает ничего, кроме итерации по строкам в срезах). Работает ли это для сотен миллионов строк?