Вопросы по теме 'google-cloud-dataproc'

Интеграция Google Dataproc и BigQuery с настраиваемым запросом
Я запускаю искровой кластер с помощью Google dataproc. Я хотел бы получить данные из большого запроса с помощью специального запроса. Я могу запустить базовый пример подсчета слов, но я ищу способ выполнить собственный запрос, например. SELECT...
237 просмотров

Кластер Dataproc с Spark 1.6.X с использованием scala 2.11.X
Я ищу способ использовать Spark на Dataproc, созданном с помощью Scala 2.11. Я хочу использовать 2.11, поскольку мои задания включают ~ 10 таблиц BigQuery, и я использую новые библиотеки отражения для сопоставления соответствующих объектов классам...
119 просмотров

Рекомендуемый API с dataproc в производстве
В настоящее время я пытаюсь создать механизм рекомендаций для сайта электронной коммерции. Я наткнулся на это , в котором описывается использование dataproc. У меня также запущен Prediction.io , который кажется отличным проектом для создания...
97 просмотров
schedule 20.10.2021

Коннектор Spark BigQuery: запись типа ARRAY вызывает исключение: недопустимое значение для: ARRAY не является допустимым значением
Запуск задания Spark в Google Cloud Dataproc. Использование коннектора BigQuery для загрузки выходных данных json из задания в таблицу BigQuery. . В документации по типам данных Standard-SQL указано ARRAY Тип поддерживается. Мой код...
1380 просмотров

Каков рекомендуемый способ обновления кластера dataproc?
Похоже, что Dataproc спроектирован так, чтобы не иметь состояния / неизменяемый. Верно ли это предположение? Должны ли мы просто уйти прямо сейчас, если мы планируем развернуть хранилище данных Hive / Presto? Мы изо всех сил пытаемся найти...
470 просмотров
schedule 13.11.2021

Ошибка при следовании инструкциям по настройке SSH-туннеля для Datalab в Dataproc
Я создал кластер Google Dataproc с установленным Datalab. Затем я выполнил инструкцию по настройке SSH-туннелирования. Но у меня ошибка. Еще пробовал другие порты. Получил ту же ошибку. Не знаю почему. Мне было интересно, а с командой что-то не...
1233 просмотров

Ошибка сценария инициализации Dataproc команда pip не найдена ошибка при использовании нескольких сценариев инициализации
Ниже приводится команда, которую я использовал для создания кластера dataproc. Здесь есть два сценария инициализации. (1) jupyter.sh (2) my_initialize.sh gcloud dataproc clusters create dproc \ --subnet default --zone us-west1-a...
380 просмотров
schedule 06.10.2021

как создать кластер dataproc по учетной записи службы
Меня очень смущает этот документ. введите здесь описание ссылки Service account requirements and Limitations: * Service accounts can only be set when a cluster is created. * You need to create a service account before creating the Cloud Dataproc...
810 просмотров
schedule 23.09.2021

Как можно программно обнаружить, что его код работает в Google Cloud?
Я пытаюсь адаптировать свои задания Spark, которые в настоящее время выполняются в локальном кластере Hadoop. Я хочу изменить его так, чтобы он продолжал поддерживать запуск в локальной среде и в облаке Google. Я думал о том, чтобы иметь способ...
475 просмотров

Улучшите работу PySpark, анализируя данные
У меня есть файлы JSON в хранилище Google с большим объемом данных (от 500 ГБ до 1 ТиБ). Эти файлы содержат по 1 объекту JSON на строку в следующем формате: {"country":"US", "col1":"val1", "col2":"val2", "col3":"val3"} {"country":"CA",...
88 просмотров

org.apache.spark.SparkException: не удалось инициализировать класс com.google.cloud.spark.bigquery.SparkBigQueryConnectorUserAgentProvider
Ниже приведен код, который я использовал для импорта таблицы bigquery в мой кластер PySpark (dataproc), а затем запускал на нем алгоритм fp-growth. Но сегодня, когда я запускал тот же код, он выдавал ошибку. Он возвращает схему импортированного df с...
531 просмотров

Запуск задания DataProc из уведомления Pub / Sub
У меня есть фоновая служба, которая создает файлы в Google Cloud Storage. Как только это будет сделано, в выходной папке будет создан файл. В моем потоке мне нужно получить список этих файлов и запустить задание DataProc Spark со списком файлов....
325 просмотров

Какое максимальное количество рабочих узлов мы можем использовать в кластере в GCP Dataproc?
Я собираюсь обучить 5 миллионов строк данных, содержащих 7 категориальных переменных (строку), но скоро обучу 31 миллион строк данных. Мне интересно, какое максимальное количество рабочих узлов мы можем использовать в кластере, потому что даже если я...
265 просмотров

Не удалось создать кластер Dataproc из-за бесплатных кредитов Google Cloud
Я использую бесплатные кредиты Google Cloud. Я подписался на Учебное пособие по Dataproc , но когда я запускаю следующую команду, у меня возникает ошибка в отношении емкости хранилища. gcloud beta dataproc clusters create ${CLUSTER_NAME} \...
373 просмотров

Выставить оттенок с помощью Component Gateway для Dataproc
Можно ли выставить Hue с помощью Component Gateway для Dataproc? Я просмотрел документы и не нашел возможности добавить к нему услугу. Я создаю кластер Dataproc с помощью команды ниже. gcloud beta dataproc clusters create hive-cluster \...
105 просмотров
schedule 20.11.2021

Чтение данных S3 из датапрока Google
Я запускаю приложение pyspark через dataproc Google в созданном мной кластере. На одном этапе приложению требуется доступ к каталогу в каталоге Amazon S3. На этом этапе я получаю ошибку: Идентификатор ключа доступа AWS и секретный ключ доступа...
1897 просмотров

Запятая создает отдельные строки для определенного значения в столбце при экспорте таблицы из кластера pyspark в BigQuery.
Я экспортировал искру df в bigquery, используя приведенный ниже код. gcs_bucket = 'main' bq_dataset = 'table' bq_table = 'user' Rules.write \ .format("bigquery") \ .option("table","{}.{}".format(bq_dataset, bq_table)) \...
57 просмотров

Как установить пакеты Python в кластер Google Dataproc
Можно ли установить пакеты python в кластере Google Dataproc после создания и запуска кластера? Я попытался использовать " pip install xxxxxxx " в главной командной строке, но это не сработало. Документация Google Dataproc не упоминает об этой...
5689 просмотров

Почему я не могу создать кластер Google DataProc с установленными Jupyter и DataLab?
Я хочу создать кластер в DataProc с установленными Jupyter и DataLab (я понимаю, что они очень похожи, но у членов команды разные предпочтения). Я могу создать кластер с любым из них: Кластер с Jupyter: gcloud dataproc clusters create...
599 просмотров

Компонентный шлюз с DataprocOperator на Airflow
В GCP довольно просто установить и запустить компонент JupyterHub из UI или команда gcloud. Я пытаюсь написать сценарий процесса через Airflow и DataprocClusterCreateOperator , здесь отрывок из DAG from airflow.contrib.operators import...
966 просмотров