Статьи по теме hadoop-streaming

Вопросы по теме 'hadoop-streaming'

в Map / Reduce можно было перезапустить только сокращение?

Можно ли перезапустить только сокращение задания в карте / сокращении задания? Я предполагаю «Нет», но просто хочу узнать, есть ли у кого-то другие мысли по этому поводу.

542 просмотров

hadoop mapreduce hadoop-streaming

23.10.2021

Эффективный способ уменьшить результаты MapReduce?

Я написал задание MapReduce, которое проводило подсчет nграмм в наборе данных. Результаты представлены в виде ста файлов по 300 МБ в формате <ngram>\t<count> . Я хочу объединить их в один результат, но мои несколько попыток объединения...

1317 просмотров

python optimization hadoop mapreduce hadoop-streaming

18.11.2021

Создание объекта задания Hadoop для потоковой передачи Hadoop

Я пытаюсь настроить и запустить задание потоковой передачи Hadoop из Java (система, с которой я работаю, требует, чтобы задания Hadoop можно было вызывать с помощью метода Java). Я нашел метод createJob в org.apache.hadoop.streaming.StreamJob (...

116 просмотров

hadoop hadoop-streaming

18.09.2021

mongo-hadoop streaming mapper.py не найден

Я получаю следующую ошибку при запуске потоковой передачи mongo-hadoop: java.io.IOException: Cannot run program "mapper.py": error=2, No such file or directory at java.lang.ProcessBuilder.start(ProcessBuilder.java:460) at...

785 просмотров

mongodb hadoop-streaming

09.09.2021

Hadoop: задание работает нормально с меньшим набором данных, но не работает с большим набором данных

У меня следующая ситуация У меня есть кластер из 3 машин со следующим подтверждением. Master Usage of /: 91.4% of 74.41GB MemTotal: 16557308 kB MemFree: 723736 kB Slave 01 Usage of /: 52.9% of 29.76GB...

15495 просмотров

java hadoop mapreduce hadoop-streaming

28.10.2021

Hadoop Streaming: ошибка такого файла не найдена (ошибка при настройке объекта)

Я запускаю следующую команду для потоковой передачи hadoop hadoop jar contrib/streaming/hadoop-streaming-1.0.3.jar -input test1/testregxml.xml -output testoutput2 -file ~/Programs/CMapper.php -mapper ~/Programs/CMapper.php -jobconf...

1320 просмотров

php hadoop hadoop-streaming

16.10.2021

Что делает PipeMapRed в потоковой передаче Hadoop?

Я выполняю задание hadoop более одного раза, и каждый раз на его завершение уходит слишком много времени, например * 15 минут * в целом. Я проверил syslog и обнаружил, что org.apache.hadoop.streaming.PipeMapRed что-то делал в течение примерно...

1122 просмотров

hadoop-streaming

27.09.2021

Как интегрировать NLTK с Hadoop HDFS?

У меня есть рабочая программа анализа настроений с использованием NLTK, которая считывает текст из файла .txt, размещенного на моем локальном компьютере. Теперь я хотел бы прочитать текстовый файл, помещенный в Hadoop HDFS, и выполнить такой же...

565 просмотров

hadoop hdfs nltk hadoop-streaming

27.09.2021

Ошибка при запуске демонов HDFS в кластере Hadoop Multinode

Проблема при настройке многоузловой системы Hadoop. Как только я запускаю демон HDFS на главном сервере (bin / start-dfs.sh) я получил ниже журналы на Мастере starting namenode, logging to...

5686 просмотров

hadoop hadoop-partitioning hadoop-plugins hadoop-streaming

13.09.2021

Обновить запись mysql из hadoop

Я завершил процесс, который прочитал файл iTunes EPF и вставил эту запись в таблицу базы данных mysql. В котором перед вставкой записи мне нужно проверить, существует ли данная запись в базе данных или нет . Если запись не существует, я вставлю...

175 просмотров

mysql hadoop hadoop-partitioning hadoop-plugins hadoop-streaming

29.11.2021

Потоковая передача Hadoop с использованием Python K-MEANS

Я хочу сделать простые k-средства с уменьшением карты hadoop и python. Картограф получает точки и сопоставляет каждую точку с ближайшим центром. Редуктор получает центр как ключ и точки как значение и вычисляет новый центр по точкам. Но теперь...

2000 просмотров

hadoop hadoop-streaming

03.11.2021

Ошибка импорта модуля pytz во время процесса потоковой передачи hadoop

Я запускаю скрипт python на hadoop и выдает следующую ошибку ImportError: нет модуля с именем pytz Когда я запускаю скрипт python на терминале, он отлично работает. В идеале этого не должно происходить, потому что hadoop использует ту же...

94 просмотров

python hadoop pytz hadoop-streaming

25.11.2021

Сбор результатов нескольких картографов, отсортированных в Reducer в Hadoop

У меня есть несколько очень больших файлов (почти 500 МБ) в качестве входных данных для моей программы MR. Я делю (разбиваю) эти файлы на разделы равного размера. Каждый Mapper получает один раздел файла Mapper: Key = (имя_файла, номер_раздела) и...

286 просмотров

java hadoop bigdata hadoop-partitioning hadoop-streaming

22.10.2021

Потоковая передача Hadoop — оболочка, выполняющая проблемы с бинарным приложением

Я новичок в Hadoop и пытаюсь использовать потоковую передачу Hadoop для распараллеливания физического моделирования, которое скомпилировано в двоичный файл. Идея состоит в том, чтобы запускать двоичный файл параллельно, используя карты с одним...

169 просмотров

python hadoop hadoop-streaming

19.02.2022

Сбой команды потоковой передачи Hadoop с ошибкой Python

Я новичок в Ubuntu, Hadoop и DFS, но мне удалось установить экземпляр Hadoop с одним узлом на моем локальном компьютере с Ubuntu, следуя инструкциям, опубликованным на Michael-Noll.com здесь:...

9291 просмотров

python hadoop hadoop-streaming

19.03.2022

Hadoop: производительность одного узла и кластера

Я запускаю три задания MapReduce последовательно (вывод одного — это вход для другого) в кластере Hadoop с 3 узлами (1 главный и 2 подчиненных). По-видимому, общее время, затрачиваемое отдельными заданиями на завершение работы в кластере с одним...

1213 просмотров

python-2.7 hadoop hadoop-streaming

21.03.2022

Механизм аналитики для устройств Интернета вещей

Я работаю на провайдера M2M IoT. В полевых условиях миллионы развернутых устройств Интернета вещей. Данные собираются пограничными устройствами и отправляются на наш центральный сервер. Сервер обрабатывает данные устройства и отправляет...

114 просмотров

apache-spark analytics hadoop iot hadoop-streaming

26.03.2022

Прикрепите дополнительные файлы к заданию потоковой передачи Python в Hadoop

Я хочу запустить задание mapreduce на ec2. У меня есть редукторы mapper.py и helper.py, а также пакет. По сути, мой mapper.py будет вызывать helper.py, а helper.py будет импортировать модули в пакете (которые представляют собой набор файлов...

314 просмотров

python amazon-web-services hadoop mapreduce hadoop-streaming

03.04.2022

DiskErrorException на подчиненной машине — многоузловая система Hadoop

Я пытаюсь обработать XML-файлы из hadoop, я получил следующую ошибку при вызове задания подсчета слов в XML-файлах. 13/07/25 12:39:57 INFO mapred.JobClient: Task Id : attempt_201307251234_0001_m_000008_0, Status : FAILED Too many fetch-failures...

1301 просмотров

hadoop mapreduce hadoop-partitioning hadoop-plugins hadoop-streaming

05.05.2022

API потоковой передачи Hadoop: как удалить ненужные разделители

Скажем, у меня есть файл на HDFS: 1 2 3 Я хочу, чтобы он превратился в a b c Я написал mapper.py: #!/usr/bin/python import sys for line in sys.stdin: print chr(int(line) + ord('a') - 1) затем с...

1388 просмотров

hadoop mapreduce hadoop-streaming

03.05.2022