Вопросы по теме 'mrjob'

Могу ли я использовать MRJob для обработки больших файлов в локальном режиме?
У меня относительно большой файл - около 10 ГБ для обработки. Я подозреваю, что он не поместится в ОЗУ моего ноутбука, если MRJob решит отсортировать его в ОЗУ или что-то подобное. В то же время я не хочу настраивать hadoop или EMR - работа...
188 просмотров
schedule 16.10.2021

как запустить mrjob на EMR
Я попытался запустить mapreduce, следуя этому руководству. Я загрузил файлы mrjob.conf, readme.txt и word_count.py на экземпляр EC2 в папку ~ / hello_mapreduce и попытался запустить команду: python word_count.py -r emr README.txt...
1291 просмотров
schedule 18.09.2021

Задание MapReduce (написанное на Python) медленно работает на EMR
Я пытаюсь написать задание MapReduce, используя пакет MRJob python. Задание обрабатывает ~ 36 000 файлов, хранящихся в S3. Размер каждого файла составляет ~ 2 МБ. Когда я запускаю задание локально (загружая ведро S3 на свой компьютер), его...
453 просмотров
schedule 16.11.2021

Mrjob в режиме hadoop: ошибка при запуске задания, неверный путь ввода: файл не существует
Я пытаюсь запустить пример Mrjob из книги Hadoop с Python на моем ноутбуке в псевдораспределенном режиме. (файл salaries.csv можно найти здесь ) Итак, я могу запустить namenode и datanode: start-dfs.sh возвращает: Starting...
2276 просмотров
schedule 25.10.2021

Как записать строку без кавычек в файл с помощью MRJob?
Я использую MRJob для получения значений и записи их в файл... У меня есть следующее, где я даю строку (бум) в качестве ключа и int (сумма) в качестве значения: boom = str(", ".join(key)).strip('"') yield boom, sum Но я получаю вывод,...
122 просмотров
schedule 16.06.2022

Начальная загрузка зависимостей Amazon EMR с помощью python Mrjob
Я пытаюсь запустить задание по уменьшению карты на Amazon EMR с помощью python Mrjob, и у меня возникают проблемы с установкой зависимостей. Мой код mrjob: from mrjob.job import MRJob import re from normalize import * from compute_features...
662 просмотров
schedule 29.07.2022

python найти максимальное значение по mrjob
я хотел бы найти максимальное значение в списке по mrjob. когда я запускаю это, он всегда показывает ошибку: Конфиги не найдены; возврат к автоконфигурации; Конфигурации для встроенного бегуна не указаны я хотел бы знать, в чем смысл...
1350 просмотров
schedule 03.09.2022

Передача параметров редюсеру в MRjob
Я использую MRjob для запуска заданий Hadoop Streaming через наш экземпляр HBase. На всю жизнь я не могу понять, как передать параметр моему редуктору. У меня есть два параметра, которые я хочу передать своему редюсеру при запуске задания: startDate...
3977 просмотров
schedule 19.09.2022

python mrjob: игнорировать нераспознанные аргументы
Обычно, если я хочу определить параметр командной строки для mrjob , я должен сделать так: class Calculate(MRJob): def configure_args(self): super(Calculate, self).configure_args() self.add_passthru_arg("-t",...
29 просмотров
schedule 03.10.2022

Можно ли обрабатывать многострочные записи с помощью Hadoop Streaming?
У меня есть такие записи: Name: Alan Kay Email: [email protected] Date: 09-09-2013 Name: Marvin Minsky Email: [email protected] City: Boston, MA Date: 09-10-2013 Name: Alan Turing City: New York City, NY Date: 09-10-2013 Они...
305 просмотров

Как вы фильтруете файлы s3 перед отправкой ввода в mrjob mapper?
Я пытаюсь обработать журналы MapReduce и хочу отфильтровать все журналы в корзине по имени файла перед их обработкой в ​​EMR. Кроме того, некоторые файлы являются каталогами tar, и я бы хотел, чтобы mrjob распаковал их, а затем отфильтровал файлы в...
421 просмотров
schedule 02.08.2023

MrJob тратит много времени на копирование локальных файлов в hdfs
Проблема, с которой я сталкиваюсь, заключается в следующем: уже поместив файл input.txt (50 МБ) в HDFS, я запускаю python ./test.py hdfs:///user/myself/input.txt -r hadoop --hadoop-bin /usr/bin/hadoop Кажется, что MrJob тратит много...
120 просмотров
schedule 10.02.2023

Счетчики из шага 1: с помощью Hadoop и mrjob счетчики не найдены
У меня есть файл python для подсчета биграмм с использованием mrjob на Hadoop (версия 2.6.0), но я не получаю результат, на который надеюсь, и у меня возникают проблемы с расшифровкой вывода в моем терминале, где я я ошибаюсь. Мой код:...
859 просмотров
schedule 01.04.2023

Один и тот же ключ MRJob отправляется на разные редукторы
Итак, у меня установлен Hadoop 2.7.1 на кластере из 3 машин. Я пытаюсь запустить задание mapreduce с инвертированным индексом, используя MRJob и Hadoop Streaming. Вот моя конфигурация: MRJob.SORT_VALUES = True def steps(self):...
810 просмотров

Задание MapReduce для получения 10 лучших значений с использованием Python MRjob
Я хочу, чтобы эта карта уменьшила задание (код ниже), чтобы вывести 10 самых популярных продуктов. Он продолжает выдавать мне следующее сообщение об ошибке: it = izip(iterable, count(0,-1)) # украсить TypeError: аргумент izip #1 должен...
5007 просмотров
schedule 13.02.2023

mrjob не работает на Amazon EMR 5.x, но работает на EMR4.8.3.
Я использую mrjob на Amazon EMR. Он работает безупречно на EMR 4.8.3, но когда я запускаю его на EMR 5.x (любой из них), что-то выходит из строя в потоковом API Hadoop, и я просто получаю много ошибок. Моя программа mrjob — очень простая программа,...
235 просмотров
schedule 30.03.2023

Ошибка Hadoop: ошибка при запуске задания, неверный входной путь: файл не существует. Сбой команды потоковой передачи
Я запускаю MRJob в кластере Hadoop и получаю следующую ошибку: No configs found; falling back on auto-configuration Looking for hadoop binary in $PATH... Found hadoop binary: /usr/local/hadoop/bin/hadoop Using Hadoop version 2.7.3 Looking for...
1319 просмотров
schedule 18.11.2022

где находится файл mrjob.conf?
Мой mrjob с потоковой передачей Hadoop терпит неудачу. У меня есть песочница hadoop на oracle vm с модулем python mrjob. Необходимо внести некоторые изменения в mrjob.conf, как это предлагается в Ошибка Hadoop: ошибка запуска задания, неверный...
753 просмотров
schedule 01.12.2022

Python3 MRJob выводит несортированные пары ключ-значение
Контекст Python 3.6.3 :: Anaconda custom (64-разрядная версия) mrjob == 0.6.2 без специальной конфигурации Запуск локально Я реализую базовый пример подсчета слов для работы по сокращению локальной карты. Мой картограф сопоставляет 1...
470 просмотров
schedule 02.04.2023

Как обрабатывать изображения в Hadoop с помощью python?
Моя цель - применить структуру map-reduce к кластерным изображениям с использованием инфраструктуры Hadoop. Для уменьшения карты я использую программирование и язык python и пакет MRJOB. Но я не могу создать логику обработки изображений. Например, у...
430 просмотров
schedule 17.01.2023