Статьи по теме mrjob

Вопросы по теме 'mrjob'

Могу ли я использовать MRJob для обработки больших файлов в локальном режиме?

У меня относительно большой файл - около 10 ГБ для обработки. Я подозреваю, что он не поместится в ОЗУ моего ноутбука, если MRJob решит отсортировать его в ОЗУ или что-то подобное. В то же время я не хочу настраивать hadoop или EMR - работа...

188 просмотров

mrjob

16.10.2021

как запустить mrjob на EMR

Я попытался запустить mapreduce, следуя этому руководству. Я загрузил файлы mrjob.conf, readme.txt и word_count.py на экземпляр EC2 в папку ~ / hello_mapreduce и попытался запустить команду: python word_count.py -r emr README.txt...

1291 просмотров

amazon-web-services mapreduce mrjob

18.09.2021

Задание MapReduce (написанное на Python) медленно работает на EMR

Я пытаюсь написать задание MapReduce, используя пакет MRJob python. Задание обрабатывает ~ 36 000 файлов, хранящихся в S3. Размер каждого файла составляет ~ 2 МБ. Когда я запускаю задание локально (загружая ведро S3 на свой компьютер), его...

453 просмотров

python hadoop mapreduce mrjob emr

16.11.2021

Mrjob в режиме hadoop: ошибка при запуске задания, неверный путь ввода: файл не существует

Я пытаюсь запустить пример Mrjob из книги Hadoop с Python на моем ноутбуке в псевдораспределенном режиме. (файл salaries.csv можно найти здесь ) Итак, я могу запустить namenode и datanode: start-dfs.sh возвращает: Starting...

2276 просмотров

python ubuntu hadoop mrjob

25.10.2021

Как записать строку без кавычек в файл с помощью MRJob?

Я использую MRJob для получения значений и записи их в файл... У меня есть следующее, где я даю строку (бум) в качестве ключа и int (сумма) в качестве значения: boom = str(", ".join(key)).strip('"') yield boom, sum Но я получаю вывод,...

122 просмотров

python-3.x python mrjob

16.06.2022

Начальная загрузка зависимостей Amazon EMR с помощью python Mrjob

Я пытаюсь запустить задание по уменьшению карты на Amazon EMR с помощью python Mrjob, и у меня возникают проблемы с установкой зависимостей. Мой код mrjob: from mrjob.job import MRJob import re from normalize import * from compute_features...

662 просмотров

python mrjob

29.07.2022

python найти максимальное значение по mrjob

я хотел бы найти максимальное значение в списке по mrjob. когда я запускаю это, он всегда показывает ошибку: Конфиги не найдены; возврат к автоконфигурации; Конфигурации для встроенного бегуна не указаны я хотел бы знать, в чем смысл...

1350 просмотров

python mapreduce mrjob

03.09.2022

Передача параметров редюсеру в MRjob

Я использую MRjob для запуска заданий Hadoop Streaming через наш экземпляр HBase. На всю жизнь я не могу понять, как передать параметр моему редуктору. У меня есть два параметра, которые я хочу передать своему редюсеру при запуске задания: startDate...

3977 просмотров

python mapreduce mrjob

19.09.2022

python mrjob: игнорировать нераспознанные аргументы

Обычно, если я хочу определить параметр командной строки для mrjob , я должен сделать так: class Calculate(MRJob): def configure_args(self): super(Calculate, self).configure_args() self.add_passthru_arg("-t",...

29 просмотров

python argparse mrjob

03.10.2022

Можно ли обрабатывать многострочные записи с помощью Hadoop Streaming?

У меня есть такие записи: Name: Alan Kay Email: [email protected] Date: 09-09-2013 Name: Marvin Minsky Email: [email protected] City: Boston, MA Date: 09-10-2013 Name: Alan Turing City: New York City, NY Date: 09-10-2013 Они...

305 просмотров

java hadoop multiline hadoop-streaming mrjob

10.02.2023

Как вы фильтруете файлы s3 перед отправкой ввода в mrjob mapper?

Я пытаюсь обработать журналы MapReduce и хочу отфильтровать все журналы в корзине по имени файла перед их обработкой в EMR. Кроме того, некоторые файлы являются каталогами tar, и я бы хотел, чтобы mrjob распаковал их, а затем отфильтровал файлы в...

421 просмотров

python amazon-s3 mapreduce mrjob emr

02.08.2023

MrJob тратит много времени на копирование локальных файлов в hdfs

Проблема, с которой я сталкиваюсь, заключается в следующем: уже поместив файл input.txt (50 МБ) в HDFS, я запускаю python ./test.py hdfs:///user/myself/input.txt -r hadoop --hadoop-bin /usr/bin/hadoop Кажется, что MrJob тратит много...

120 просмотров

hadoop hdfs mrjob

10.02.2023

Счетчики из шага 1: с помощью Hadoop и mrjob счетчики не найдены

У меня есть файл python для подсчета биграмм с использованием mrjob на Hadoop (версия 2.6.0), но я не получаю результат, на который надеюсь, и у меня возникают проблемы с расшифровкой вывода в моем терминале, где я я ошибаюсь. Мой код:...

859 просмотров

python python-2.7 hadoop mapreduce mrjob

01.04.2023

Один и тот же ключ MRJob отправляется на разные редукторы

Итак, у меня установлен Hadoop 2.7.1 на кластере из 3 машин. Я пытаюсь запустить задание mapreduce с инвертированным индексом, используя MRJob и Hadoop Streaming. Вот моя конфигурация: MRJob.SORT_VALUES = True def steps(self):...

810 просмотров

python hadoop partitioning hadoop-streaming mrjob

04.06.2023

Задание MapReduce для получения 10 лучших значений с использованием Python MRjob

Я хочу, чтобы эта карта уменьшила задание (код ниже), чтобы вывести 10 самых популярных продуктов. Он продолжает выдавать мне следующее сообщение об ошибке: it = izip(iterable, count(0,-1)) # украсить TypeError: аргумент izip #1 должен...

5007 просмотров

python mapreduce mrjob

13.02.2023

mrjob не работает на Amazon EMR 5.x, но работает на EMR4.8.3.

Я использую mrjob на Amazon EMR. Он работает безупречно на EMR 4.8.3, но когда я запускаю его на EMR 5.x (любой из них), что-то выходит из строя в потоковом API Hadoop, и я просто получаю много ошибок. Моя программа mrjob — очень простая программа,...

235 просмотров

amazon-web-services amazon-emr mrjob

30.03.2023

Ошибка Hadoop: ошибка при запуске задания, неверный входной путь: файл не существует. Сбой команды потоковой передачи

Я запускаю MRJob в кластере Hadoop и получаю следующую ошибку: No configs found; falling back on auto-configuration Looking for hadoop binary in $PATH... Found hadoop binary: /usr/local/hadoop/bin/hadoop Using Hadoop version 2.7.3 Looking for...

1319 просмотров

python hadoop mrjob

18.11.2022

где находится файл mrjob.conf?

Мой mrjob с потоковой передачей Hadoop терпит неудачу. У меня есть песочница hadoop на oracle vm с модулем python mrjob. Необходимо внести некоторые изменения в mrjob.conf, как это предлагается в Ошибка Hadoop: ошибка запуска задания, неверный...

753 просмотров

python virtual-machine hadoop mrjob

01.12.2022

Python3 MRJob выводит несортированные пары ключ-значение

Контекст Python 3.6.3 :: Anaconda custom (64-разрядная версия) mrjob == 0.6.2 без специальной конфигурации Запуск локально Я реализую базовый пример подсчета слов для работы по сокращению локальной карты. Мой картограф сопоставляет 1...

470 просмотров

python-3.x python mapreduce mrjob

02.04.2023

Как обрабатывать изображения в Hadoop с помощью python?

Моя цель - применить структуру map-reduce к кластерным изображениям с использованием инфраструктуры Hadoop. Для уменьшения карты я использую программирование и язык python и пакет MRJOB. Но я не могу создать логику обработки изображений. Например, у...

430 просмотров

python hadoop hadoop-streaming mrjob

17.01.2023