Вопросы по теме 'apache-tez'

Разница между hive.tez.container.size и tez.task.resource.memory.mb
Не мог бы кто-нибудь узнать и объяснить мне, пожалуйста, разницу между этими настройками Tez? hive.tez.container.size и tez.task.resource.memory.mb Благодарю.
3936 просмотров
schedule 10.10.2021

Как задания wordCount mapReduce запускаются на кластере пряжи hadoop с помощью apache tez?
Как говорится на странице github tez , tez очень прост и в своей основе состоит всего из двух компонентов: Механизм конвейера обработки данных и Мастер для приложения обработки данных, с помощью которого можно объединить произвольные...
620 просмотров
schedule 13.03.2022

Как запустить куст запросов и получить идентификатор приложения через журнал
Я пишу сценарий оболочки, который выполняет команду улья, записывая журнал и выводящую информацию в два отдельных файла: hive -S -f pdr_extrator.sql 2> pdr_extrator_log.txt | sed 's / [\ t] / | / g' 1> pdr_extrator_out.txt Файл журнала...
675 просмотров
schedule 29.03.2022

Уменьшите время выполнения большого запроса
Мой запрос обрабатывает этот запрос более 30 минут. Он действительно работает с очень большим набором данных, однако мне может не хватать чего-то базового, что может сократить время выполнения. Запрос работает на многих этапах редуктора, на каждом...
38 просмотров

маппер hive-on-tez застрял в ИНИЦИАЛИЗАЦИИ с общим количеством контейнеров, равным -1 при доступе к данным на S3 / MinIO
У меня есть настройка Hadoop + Hive + Tez с нуля (то есть я развернул ее компонент за компонентом). Hive настроен с использованием Tez в качестве механизма выполнения. В текущем состоянии Hive может получить доступ к таблице в HDFS, но не может...
420 просмотров
schedule 15.04.2022

Невозможно запустить латинский скрипт Pig на Apache Tez
У меня есть псевдораспределенная машина Ubuntu с одним кластером. Я написал простой свиной латинский скрипт, который отлично работает при использовании mapreduce в качестве режима выполнения. Но когда я использую tez в качестве режима выполнения с...
736 просмотров
schedule 15.06.2022

hive на tez выдает java.lang.NoSuchMethodError
Я развернул tez и настроил hive для работы с tez. Простой запрос не выполняется на этапе редуктора. Это вызывает эту ошибку: Статус: выполняется (выполняется в кластере YARN с идентификатором приложения application_1469020577348_0014)...
714 просмотров
schedule 11.09.2022

Ошибка запроса Hive при попытке использовать механизм TEZ
Я пытаюсь выполнить приведенный ниже запрос, используя механизм TEZ, который успешно выполнен в движке MR. set hive.execution.engine=tez;SET hive.exec.dynamic.partition = true; SET hive.exec.dynamic.partition.mode = nonstrict;SET...
241 просмотров
schedule 13.09.2022

Создание индекса Hive с помощью TEZ
Можно ли генерировать индексы с помощью Tez вместо задания MR? Когда мы пытаемся установить hive.execution.engine=Tez и пытаемся сгенерировать индекс, создание индекса завершается ошибкой. Ниже приведен список команд, которые я использовал:...
2012 просмотров
schedule 17.09.2022

Почему hdfs выбрасывает исключение LeaseExpiredException в кластере Hadoop (AWS EMR)
Я получаю исключение LeaseExpiredException в кластере hadoop - tail -f /var/log/hadoop-hdfs/hadoop-hdfs-namenode-ip-172-30-2-148.log 2016-09-21 11: 54: 14,533 INFO BlockStateChange (обработчик 10 IPC-сервера на 8020): BLOCK *...
4247 просмотров

Улей проблем с приемом данных: java.lang.OutOfMemoryError: невозможно создать новый собственный поток
Я новичок в улье, и у меня возникла одиссея проблем с получением большого (1 ТБ) файла HDFS в секционированную управляемую таблицу Hive. Не могли бы вы помочь мне обойти это? Мне кажется, что у меня где-то плохая конфигурация, потому что я не могу...
506 просмотров

Сокращение картографов и редукторов для простого запроса к очень большой таблице/представлению в Hive
У нас есть простой запрос к таблице/представлению размером примерно 5 ТБ. Мы выполняем ETL и, наконец, добавляем данные в основную таблицу, добавляя раздел. Но поскольку данные, которые мы обрабатываем, огромны, запрос порождает более 4000...
939 просмотров

Запрос занимает время, несмотря на добавление настроек сеанса
Ниже приведен запрос, сгенерированный ETL. Запрос - SELECT infaHiveSysTimestamp('SS') as a0, 7991 as a1, single_use_subq30725.a1 as a2, SUBSTR(SUBSTR(single_use_subq30725.a2, 0, 5), 0, 5) as a3, CAST(1 AS SMALLINT) as a4,...
45 просмотров
schedule 17.12.2022

Название вакансии для Tez job в билайне и посмотреть в YARN
Я использую Beeline и хотел бы установить конкретное имя для задания TEZ, например, я использую mapreduce.job.name для задания MapReduce. Я пробовал hive.query.name , но в yarn application -list это не имеет никакого значения. Некоторые...
1335 просмотров
schedule 08.05.2023

Запрос Apache Hive на Tez FileNotFoundException
Я получаю это исключение при выполнении запроса Hive в Tez с Hive 2.3.6 и Tez 0.9.2 Я знаю, что Tez настроен правильно, потому что я могу вручную запускать задания сокращения карты через Hadoop. Dag submit failed due to...
204 просмотров
schedule 16.02.2023

Hive недоступен через Spark. В среде Kerberos: клиент не может пройти аутентификацию через: [TOKEN, KERBEROS]
Привет всем, я запускаю Spark (2.4.4) в среде kerberos, я написал код для запроса таблицы Hive через Spark. Я делаю kinit также в команде spark-submit, но все равно сталкиваюсь с java.io.IOException:...
273 просмотров

Оценка размера контейнера Tez относительно длины входного разделения
Итак, когда Tez выбирает количество картографов для запуска, он смотрит на количество контейнеров, которые могут работать параллельно (доступные слоты), волновой фактор, местоположение данных в стойке, максимальный размер разделения FileInputFormat,...
159 просмотров

как Hive на Tez определяет номера редукторов?
Как определить количество редукторов? Похоже, это как-то связано с предложением where. Я использую следующий SQL: без предикатов SELELT ip, port, count(1) AS cnt FROM tb_ipaddr GROUP BY ip, port; В этой работе 252 редуктора. с одним...
21 просмотров
schedule 01.02.2023