Слой перевода HDFS через S3 / Google Storage Bucket — как?

Я бы хотел предоставить сервису доступ к хранилищу Google через HDFS. Рассматриваемая служба представляет собой кластер (SOLR), который может общаться только с HDFS, учитывая, что у меня нет хаупа (и он мне не нужен), в идеале я хотел бы иметь док-контейнер, который будет использовать корзину хранилища Google в качестве бэкэнда и выставлять это содержимое через HDFS. Если возможно, я бы хотел избежать монтирования (например, fuse gcsfs), кто-нибудь делал такое?

Я думаю, что мог бы просто смонтировать gcsfs и настроить кластер с одним узлом с HDFS, но есть ли более простой/надежный способ?

Любые подсказки/направления приветствуются.


person Jacek    schedule 13.08.2020    source источник


Ответы (1)


Вам может понадобиться Cloud Storage Connector for Hadoop. .

Это не образ Docker, а установка. Дополнительные инструкции можно найти в репозитории GitHub в разделе README.md и INSTALL.md

Если к нему обращаются из AWS S3, вам понадобится учетная запись службы с доступом к облачному хранилищу и установите для переменной env GOOGLE_APPLICATION_CREDENTIALS значение /path/to/keyfile.


Чтобы использовать SOLR с GCS, вам действительно нужен кластер Hadoop, и вы можете сделать это в GCP, создав кластер dataproc, а затем использовать упомянутый соединитель для подключения вашего решения SOLR к GCS. для получения дополнительной информации см. этот SOLR.

person Juancki    schedule 14.08.2020
comment
Я не уверен, как это поможет... С этим мне понадобится хауоп (которого у меня нет), а также все формы взаимодействия solr с gcs:// вместо hdfs://, которые solr не делает . Кроме того, тем временем нам удалось создать плагин solr, который добавляет репозиторий GCS для резервного копирования/восстановления непосредственно в solr. Это простая реализация, которая вместо прямого обращения к gcs копирует резервную копию в и из gcs в локальную ФС и восстанавливает оттуда. - person Jacek; 15.08.2020
comment
чтобы использовать SOLR с GCS, вам действительно нужен кластер Hadoop, и вы можете сделать это в GCP, создав кластер dataproc, а затем используйте соединитель, упомянутый @Juancki, для подключения вашего решения SOLR к GCS. для получения дополнительной информации проверьте этот cloud.google.com/dataproc/docs/concepts/components /солр - person Methkal Khalawi; 17.08.2020