Я работаю со структурированными данными (одно значение для каждого поля, одни и те же поля для каждой строки), которые я должен поместить в среду NoSql с помощью Spark (в качестве инструмента анализа) и Hadoop. Хотя, мне интересно, какой формат использовать. я думал о json или csv, но я не уверен. Что вы думаете и почему? У меня недостаточно опыта в этой области, чтобы принять правильное решение.
2-й вопрос: мне нужно проанализировать эти данные (хранящиеся в HDFS). Итак, насколько я знаю, у меня есть две возможности запросить их (до анализа):
прямое чтение и фильтрация. я имею в виду, что это можно сделать с помощью Spark, например:
data = sqlCtxt.read.json(path_data)
Используйте Hbase/Hive, чтобы правильно сделать запрос и затем обработать данные.
Итак, я не знаю, как это сделать стандартным способом и, прежде всего, что будет самым быстрым. Заранее спасибо!