Вопросы по теме 'mrjob'
Могу ли я использовать MRJob для обработки больших файлов в локальном режиме?
У меня относительно большой файл - около 10 ГБ для обработки. Я подозреваю, что он не поместится в ОЗУ моего ноутбука, если MRJob решит отсортировать его в ОЗУ или что-то подобное.
В то же время я не хочу настраивать hadoop или EMR - работа...
188 просмотров
schedule
16.10.2021
как запустить mrjob на EMR
Я попытался запустить mapreduce, следуя этому руководству.
Я загрузил файлы mrjob.conf, readme.txt и word_count.py на экземпляр EC2 в папку ~ / hello_mapreduce и попытался запустить команду:
python word_count.py -r emr README.txt...
1291 просмотров
schedule
18.09.2021
Задание MapReduce (написанное на Python) медленно работает на EMR
Я пытаюсь написать задание MapReduce, используя пакет MRJob python. Задание обрабатывает ~ 36 000 файлов, хранящихся в S3. Размер каждого файла составляет ~ 2 МБ. Когда я запускаю задание локально (загружая ведро S3 на свой компьютер), его...
453 просмотров
schedule
16.11.2021
Mrjob в режиме hadoop: ошибка при запуске задания, неверный путь ввода: файл не существует
Я пытаюсь запустить пример Mrjob из книги Hadoop с Python на моем ноутбуке в псевдораспределенном режиме.
(файл salaries.csv можно найти здесь )
Итак, я могу запустить namenode и datanode:
start-dfs.sh
возвращает:
Starting...
2276 просмотров
schedule
25.10.2021
Как записать строку без кавычек в файл с помощью MRJob?
Я использую MRJob для получения значений и записи их в файл...
У меня есть следующее, где я даю строку (бум) в качестве ключа и int (сумма) в качестве значения:
boom = str(", ".join(key)).strip('"')
yield boom, sum
Но я получаю вывод,...
122 просмотров
schedule
16.06.2022
Начальная загрузка зависимостей Amazon EMR с помощью python Mrjob
Я пытаюсь запустить задание по уменьшению карты на Amazon EMR с помощью python Mrjob, и у меня возникают проблемы с установкой зависимостей.
Мой код mrjob:
from mrjob.job import MRJob
import re
from normalize import *
from compute_features...
662 просмотров
schedule
29.07.2022
python найти максимальное значение по mrjob
я хотел бы найти максимальное значение в списке по mrjob. когда я запускаю это, он всегда показывает ошибку:
Конфиги не найдены; возврат к автоконфигурации; Конфигурации для встроенного бегуна не указаны
я хотел бы знать, в чем смысл...
1350 просмотров
schedule
03.09.2022
Передача параметров редюсеру в MRjob
Я использую MRjob для запуска заданий Hadoop Streaming через наш экземпляр HBase. На всю жизнь я не могу понять, как передать параметр моему редуктору. У меня есть два параметра, которые я хочу передать своему редюсеру при запуске задания: startDate...
3977 просмотров
schedule
19.09.2022
python mrjob: игнорировать нераспознанные аргументы
Обычно, если я хочу определить параметр командной строки для mrjob , я должен сделать так:
class Calculate(MRJob):
def configure_args(self):
super(Calculate, self).configure_args()
self.add_passthru_arg("-t",...
29 просмотров
schedule
03.10.2022
Можно ли обрабатывать многострочные записи с помощью Hadoop Streaming?
У меня есть такие записи:
Name: Alan Kay
Email: [email protected]
Date: 09-09-2013
Name: Marvin Minsky
Email: [email protected]
City: Boston, MA
Date: 09-10-2013
Name: Alan Turing
City: New York City, NY
Date: 09-10-2013
Они...
305 просмотров
schedule
10.02.2023
Как вы фильтруете файлы s3 перед отправкой ввода в mrjob mapper?
Я пытаюсь обработать журналы MapReduce и хочу отфильтровать все журналы в корзине по имени файла перед их обработкой в EMR. Кроме того, некоторые файлы являются каталогами tar, и я бы хотел, чтобы mrjob распаковал их, а затем отфильтровал файлы в...
421 просмотров
schedule
02.08.2023
MrJob тратит много времени на копирование локальных файлов в hdfs
Проблема, с которой я сталкиваюсь, заключается в следующем: уже поместив файл input.txt (50 МБ) в HDFS, я запускаю
python ./test.py hdfs:///user/myself/input.txt -r hadoop --hadoop-bin /usr/bin/hadoop
Кажется, что MrJob тратит много...
120 просмотров
schedule
10.02.2023
Счетчики из шага 1: с помощью Hadoop и mrjob счетчики не найдены
У меня есть файл python для подсчета биграмм с использованием mrjob на Hadoop (версия 2.6.0), но я не получаю результат, на который надеюсь, и у меня возникают проблемы с расшифровкой вывода в моем терминале, где я я ошибаюсь.
Мой код:...
859 просмотров
schedule
01.04.2023
Один и тот же ключ MRJob отправляется на разные редукторы
Итак, у меня установлен Hadoop 2.7.1 на кластере из 3 машин. Я пытаюсь запустить задание mapreduce с инвертированным индексом, используя MRJob и Hadoop Streaming.
Вот моя конфигурация:
MRJob.SORT_VALUES = True
def steps(self):...
810 просмотров
schedule
04.06.2023
Задание MapReduce для получения 10 лучших значений с использованием Python MRjob
Я хочу, чтобы эта карта уменьшила задание (код ниже), чтобы вывести 10 самых популярных продуктов. Он продолжает выдавать мне следующее сообщение об ошибке:
it = izip(iterable, count(0,-1)) # украсить TypeError: аргумент izip #1 должен...
5007 просмотров
schedule
13.02.2023
mrjob не работает на Amazon EMR 5.x, но работает на EMR4.8.3.
Я использую mrjob на Amazon EMR. Он работает безупречно на EMR 4.8.3, но когда я запускаю его на EMR 5.x (любой из них), что-то выходит из строя в потоковом API Hadoop, и я просто получаю много ошибок. Моя программа mrjob — очень простая программа,...
235 просмотров
schedule
30.03.2023
Ошибка Hadoop: ошибка при запуске задания, неверный входной путь: файл не существует. Сбой команды потоковой передачи
Я запускаю MRJob в кластере Hadoop и получаю следующую ошибку:
No configs found; falling back on auto-configuration
Looking for hadoop binary in $PATH...
Found hadoop binary: /usr/local/hadoop/bin/hadoop
Using Hadoop version 2.7.3
Looking for...
1319 просмотров
schedule
18.11.2022
где находится файл mrjob.conf?
Мой mrjob с потоковой передачей Hadoop терпит неудачу. У меня есть песочница hadoop на oracle vm с модулем python mrjob. Необходимо внести некоторые изменения в mrjob.conf, как это предлагается в Ошибка Hadoop: ошибка запуска задания, неверный...
753 просмотров
schedule
01.12.2022
Python3 MRJob выводит несортированные пары ключ-значение
Контекст
Python 3.6.3 :: Anaconda custom (64-разрядная версия) mrjob == 0.6.2 без специальной конфигурации Запуск локально
Я реализую базовый пример подсчета слов для работы по сокращению локальной карты. Мой картограф сопоставляет 1...
470 просмотров
schedule
02.04.2023
Как обрабатывать изображения в Hadoop с помощью python?
Моя цель - применить структуру map-reduce к кластерным изображениям с использованием инфраструктуры Hadoop. Для уменьшения карты я использую программирование и язык python и пакет MRJOB. Но я не могу создать логику обработки изображений. Например, у...
430 просмотров
schedule
17.01.2023