Во-первых, в настоящее время я могу быть дезинформирован о возможностях BigData. Так что не стесняйтесь поправлять меня, если я слишком оптимистичен.
Обычно я работаю с обычными KPI, например, покажите мне: количество новых клиентов, где они соответствуют определенным сложным условиям (присоединение к нескольким таблицам фактов) для каждого менеджера в течение определенного месяца.
Эти запросы довольно динамичны, поэтому нет возможности предсказать предварительно вычисленные данные. Мы используем OLAP и MDX для динамической отчетности. Цена динамических расчетов — производительность. Пользователи обычно ждут результата больше минуты.
Вот я и добрался до BigData. Я прочитал некоторые статьи, форумы, документы, которые привели меня к неоднозначным выводам. BigData предоставляет инструменты для обработки данных за считанные секунды, однако они плохо подходят для задач BI, таких как соединения, предварительное агрегирование. Нет классического СХД поверх концепции хауп и так далее.
Тем не менее, это теория. Я нашел Kylin, который заставляет меня попробовать его на практике. Чем больше копаю, тем больше вопросов появляется. Некоторые из них:
- Нужны ли мне знания программирования (Java, Scala, Python)?
- Нужны ли мне графические инструменты, достаточно ли доступа по ssh?
- Какие аппаратные требования соответствуют моим потребностям в 100-200 гигабайтных БД (также количество аппаратного обеспечения)?
- Какая файловая система лучше (ext4), меня это вообще должно волновать?
- Как я могу перенести данные из СУБД, есть ли умные ETL?
- Какие технологии я должен изучить и использовать в первую очередь (pig, spark и т. д.)?
На самом деле я могу задавать неправильные вопросы и совершенно неправильно понимать концепцию, но надеясь на хорошие наводки. Не стесняйтесь давать любые советы, которые вы считаете полезными по поводу консолидации BI и Bigdata.
Я знаю о http://kylin.apache.org/docs15/index.html, но Я не чувствую себя комфортно, чтобы попробовать это без backend backgroung.