Вопросы по теме 'hadoop-streaming'

в Map / Reduce можно было перезапустить только сокращение?
Можно ли перезапустить только сокращение задания в карте / сокращении задания? Я предполагаю «Нет», но просто хочу узнать, есть ли у кого-то другие мысли по этому поводу.
542 просмотров
schedule 23.10.2021

Эффективный способ уменьшить результаты MapReduce?
Я написал задание MapReduce, которое проводило подсчет nграмм в наборе данных. Результаты представлены в виде ста файлов по 300 МБ в формате <ngram>\t<count> . Я хочу объединить их в один результат, но мои несколько попыток объединения...
1317 просмотров

Создание объекта задания Hadoop для потоковой передачи Hadoop
Я пытаюсь настроить и запустить задание потоковой передачи Hadoop из Java (система, с которой я работаю, требует, чтобы задания Hadoop можно было вызывать с помощью метода Java). Я нашел метод createJob в org.apache.hadoop.streaming.StreamJob (...
116 просмотров
schedule 18.09.2021

mongo-hadoop streaming mapper.py не найден
Я получаю следующую ошибку при запуске потоковой передачи mongo-hadoop: java.io.IOException: Cannot run program "mapper.py": error=2, No such file or directory at java.lang.ProcessBuilder.start(ProcessBuilder.java:460) at...
785 просмотров
schedule 09.09.2021

Hadoop: задание работает нормально с меньшим набором данных, но не работает с большим набором данных
У меня следующая ситуация У меня есть кластер из 3 машин со следующим подтверждением. Master Usage of /: 91.4% of 74.41GB MemTotal: 16557308 kB MemFree: 723736 kB Slave 01 Usage of /: 52.9% of 29.76GB...
15495 просмотров
schedule 28.10.2021

Hadoop Streaming: ошибка такого файла не найдена (ошибка при настройке объекта)
Я запускаю следующую команду для потоковой передачи hadoop hadoop jar contrib/streaming/hadoop-streaming-1.0.3.jar -input test1/testregxml.xml -output testoutput2 -file ~/Programs/CMapper.php -mapper ~/Programs/CMapper.php -jobconf...
1320 просмотров
schedule 16.10.2021

Что делает PipeMapRed в потоковой передаче Hadoop?
Я выполняю задание hadoop более одного раза, и каждый раз на его завершение уходит слишком много времени, например * 15 минут * в целом. Я проверил syslog и обнаружил, что org.apache.hadoop.streaming.PipeMapRed что-то делал в течение примерно...
1122 просмотров
schedule 27.09.2021

Как интегрировать NLTK с Hadoop HDFS?
У меня есть рабочая программа анализа настроений с использованием NLTK, которая считывает текст из файла .txt, размещенного на моем локальном компьютере. Теперь я хотел бы прочитать текстовый файл, помещенный в Hadoop HDFS, и выполнить такой же...
565 просмотров
schedule 27.09.2021

Ошибка при запуске демонов HDFS в кластере Hadoop Multinode
Проблема при настройке многоузловой системы Hadoop. Как только я запускаю демон HDFS на главном сервере (bin / start-dfs.sh) я получил ниже журналы на Мастере starting namenode, logging to...
5686 просмотров

Обновить запись mysql из hadoop
Я завершил процесс, который прочитал файл iTunes EPF и вставил эту запись в таблицу базы данных mysql. В котором перед вставкой записи мне нужно проверить, существует ли данная запись в базе данных или нет . Если запись не существует, я вставлю...
175 просмотров

Потоковая передача Hadoop с использованием Python K-MEANS
Я хочу сделать простые k-средства с уменьшением карты hadoop и python. Картограф получает точки и сопоставляет каждую точку с ближайшим центром. Редуктор получает центр как ключ и точки как значение и вычисляет новый центр по точкам. Но теперь...
2000 просмотров
schedule 03.11.2021

Ошибка импорта модуля pytz во время процесса потоковой передачи hadoop
Я запускаю скрипт python на hadoop и выдает следующую ошибку ImportError: нет модуля с именем pytz Когда я запускаю скрипт python на терминале, он отлично работает. В идеале этого не должно происходить, потому что hadoop использует ту же...
94 просмотров
schedule 25.11.2021

Сбор результатов нескольких картографов, отсортированных в Reducer в Hadoop
У меня есть несколько очень больших файлов (почти 500 МБ) в качестве входных данных для моей программы MR. Я делю (разбиваю) эти файлы на разделы равного размера. Каждый Mapper получает один раздел файла Mapper: Key = (имя_файла, номер_раздела) и...
286 просмотров

Потоковая передача Hadoop — оболочка, выполняющая проблемы с бинарным приложением
Я новичок в Hadoop и пытаюсь использовать потоковую передачу Hadoop для распараллеливания физического моделирования, которое скомпилировано в двоичный файл. Идея состоит в том, чтобы запускать двоичный файл параллельно, используя карты с одним...
169 просмотров
schedule 19.02.2022

Сбой команды потоковой передачи Hadoop с ошибкой Python
Я новичок в Ubuntu, Hadoop и DFS, но мне удалось установить экземпляр Hadoop с одним узлом на моем локальном компьютере с Ubuntu, следуя инструкциям, опубликованным на Michael-Noll.com здесь:...
9291 просмотров
schedule 19.03.2022

Hadoop: производительность одного узла и кластера
Я запускаю три задания MapReduce последовательно (вывод одного — это вход для другого) в кластере Hadoop с 3 узлами (1 главный и 2 подчиненных). По-видимому, общее время, затрачиваемое отдельными заданиями на завершение работы в кластере с одним...
1213 просмотров
schedule 21.03.2022

Механизм аналитики для устройств Интернета вещей
Я работаю на провайдера M2M IoT. В полевых условиях миллионы развернутых устройств Интернета вещей. Данные собираются пограничными устройствами и отправляются на наш центральный сервер. Сервер обрабатывает данные устройства и отправляет...
114 просмотров

Прикрепите дополнительные файлы к заданию потоковой передачи Python в Hadoop
Я хочу запустить задание mapreduce на ec2. У меня есть редукторы mapper.py и helper.py, а также пакет. По сути, мой mapper.py будет вызывать helper.py, а helper.py будет импортировать модули в пакете (которые представляют собой набор файлов...
314 просмотров

DiskErrorException на подчиненной машине — многоузловая система Hadoop
Я пытаюсь обработать XML-файлы из hadoop, я получил следующую ошибку при вызове задания подсчета слов в XML-файлах. 13/07/25 12:39:57 INFO mapred.JobClient: Task Id : attempt_201307251234_0001_m_000008_0, Status : FAILED Too many fetch-failures...
1301 просмотров

API потоковой передачи Hadoop: как удалить ненужные разделители
Скажем, у меня есть файл на HDFS: 1 2 3 Я хочу, чтобы он превратился в a b c Я написал mapper.py: #!/usr/bin/python import sys for line in sys.stdin: print chr(int(line) + ord('a') - 1) затем с...
1388 просмотров
schedule 03.05.2022