У меня есть набор данных размером 10 петабайт. Мои текущие данные находятся в HBase, где я использую Spark HbaseContext
, но он работает плохо.
Будет ли полезно переместить данные из HbaseContext
в HiveContext
в Spark?
У меня есть набор данных размером 10 петабайт. Мои текущие данные находятся в HBase, где я использую Spark HbaseContext
, но он работает плохо.
Будет ли полезно переместить данные из HbaseContext
в HiveContext
в Spark?
HiveContext используется для чтения данных из Hive. поэтому, если вы переключитесь на HiveContext, данные должны быть в Hive. Я не думаю, что то, что вы пытаетесь, сработает.
В моем случае я использую mapPartition с подключением HBase внутри. Главное — уметь разделять.
Для сканирования можно создать свой собственный сканер, с префиксом и т.д. Для получения еще проще. Для путов вы можете создать список путов, а затем пакетную вставку.
Я не использую HBaseContext, и у меня неплохие результаты в базе данных из 1,2 миллиарда строк.
HbaseContext
? Это часть разъема HBase, не так ли? В этом случае вы не сможете просто переключаться между контекстами, поскольку они несовместимы. - person Jacek Laskowski   schedule 05.03.2018