Различные варианты метахранилища/каталога данных с Apache Spark?

Какие параметры хранилища метаданных/каталога данных я могу использовать с Apache Spark?

В простейшем случае я могу использовать Hive Metastore, который отлично работает с Hive, Spark и Presto. Есть ли какие-либо другие параметры каталога данных, которые я могу здесь использовать?


person Panda    schedule 21.07.2019    source источник
comment
Ответ недостаточно хорош?   -  person thebluephantom    schedule 19.08.2019


Ответы (1)


Не стесняясь документации, которую можно найти по адресу https://spark.apache.org/docs/latest/sql-data-sources-hive-tables.html:

Spark SQL также поддерживает чтение и запись данных, хранящихся в Apache Hive. Однако, поскольку Hive имеет большое количество зависимостей, эти зависимости не включены в дистрибутив Spark по умолчанию. Если в пути к классам можно найти зависимости Hive, Spark загрузит их автоматически. Обратите внимание, что эти зависимости Hive также должны присутствовать на всех рабочих узлах, поскольку им потребуется доступ к библиотекам сериализации и десериализации Hive (SerDes) для доступа к данным, хранящимся в Hive.

Настройка Hive выполняется путем размещения файлов hive-site.xml, core-site.xml (для настройки безопасности) и hdfs-site.xml (для конфигурации HDFS) в conf/.

При работе с Hive необходимо создать экземпляр SparkSession с поддержкой Hive, включая подключение к постоянному хранилищу метаданных Hive, поддержку серверов Hive и пользовательских функций Hive. Пользователи, у которых нет существующего развертывания Hive, могут включить поддержку Hive. Если файл hive-site.xml не настроен, контекст автоматически создает metastore_db в текущем каталоге и создает каталог, настроенный с помощью spark.sql.warehouse.dir, который по умолчанию является каталогом spark-warehouse в текущем каталоге, который использует приложение Spark. запущен. Обратите внимание, что свойство hive.metastore.warehouse.dir в файле hive-site.xml устарело, начиная с Spark 2.0.0. Вместо этого используйте spark.sql.warehouse.dir, чтобы указать расположение базы данных по умолчанию в хранилище. Возможно, вам потребуется предоставить права на запись пользователю, который запускает приложение Spark.

Но, может быть, вы имеете в виду что-то другое? Простые случаи?

person thebluephantom    schedule 21.07.2019