Я запускаю пользовательский UDAF на столе, хранящемся как паркет в Hive на Tez. Наши задания Hive выполняются на YARN, и все они настроены в Amazon EMR. Однако из-за того, что данные паркета, которые у нас есть, были сгенерированы с помощью более старой версии Parquet (1.5), я получаю предупреждение, которое заполняет журналы YARN и приводит к нехватке места на диске до завершения задания.
Это предупреждение:
ПРЕДУПРЕЖДЕНИЕ PM: org.apache.parquet.CorruptStatistics: Игнорирование статистики, поскольку не удалось проанализировать created_by (см. PARQUET-251): версия parquet-mr
Он также печатает дорожку стека. Я пытался отключить журналы предупреждений, но безрезультатно. Мне удалось отключить почти все типы журналов, кроме этого предупреждения. Я попытался изменить почти каждый файл настроек Log4j, используя конфигурацию AWS, как описано здесь.
Вещи, которые я пробовал до сих пор:
Я установил следующие параметры в tez-site.xml (записав их в формате JSON, потому что это требуется AWS для настройки). Разумеется, в реальном экземпляре он находится в правильном формате XML.
"tez.am.log.level": "OFF", "tez.task.log.level": "OFF", "tez.am.launch.cluster-default.cmd-opts": "-Dhadoop.metrics.log.level=OFF -Dtez.root.logger=OFF,CLA", "tez.task-specific.log.level": "OFF;org.apache.parquet=OFF"
У меня есть следующие настройки в mapred-site.xml. Эти настройки фактически отключили все журналы, которые происходят в моих журналах YARN, за исключением рассматриваемого предупреждения.
"mapreduce.map.log.level": "OFF", "mapreduce.reduce.log.level": "OFF", "yarn.app.mapreduce.am.log.level": "OFF"
У меня есть эти настройки почти в каждом другом файле log4j.properties. Я нашел в списке, показанном в предыдущей ссылке AWS.
"log4j.logger.org.apache.parquet.CorruptStatistics": "OFF", "log4j.logger.org.apache.parquet": "OFF", "log4j.rootLogger": "OFF, console"
Честно говоря, на данный момент я просто хочу найти способ отключить журналы и как-то запустить работу. Я читал о похожих проблемах, таких как эта ссылка, где они исправили ее, изменение настроек log4j, но это для Spark и, похоже, не работает на Hive/Tez и Amazon. Любая помощь приветствуется.