Вопросы по теме 'hadoop-streaming'
в Map / Reduce можно было перезапустить только сокращение?
Можно ли перезапустить только сокращение задания в карте / сокращении задания? Я предполагаю «Нет», но просто хочу узнать, есть ли у кого-то другие мысли по этому поводу.
542 просмотров
schedule
23.10.2021
Эффективный способ уменьшить результаты MapReduce?
Я написал задание MapReduce, которое проводило подсчет nграмм в наборе данных. Результаты представлены в виде ста файлов по 300 МБ в формате <ngram>\t<count> . Я хочу объединить их в один результат, но мои несколько попыток объединения...
1317 просмотров
schedule
18.11.2021
Создание объекта задания Hadoop для потоковой передачи Hadoop
Я пытаюсь настроить и запустить задание потоковой передачи Hadoop из Java (система, с которой я работаю, требует, чтобы задания Hadoop можно было вызывать с помощью метода Java).
Я нашел метод createJob в org.apache.hadoop.streaming.StreamJob (...
116 просмотров
schedule
18.09.2021
mongo-hadoop streaming mapper.py не найден
Я получаю следующую ошибку при запуске потоковой передачи mongo-hadoop:
java.io.IOException: Cannot run program "mapper.py": error=2, No such file or directory
at java.lang.ProcessBuilder.start(ProcessBuilder.java:460)
at...
785 просмотров
schedule
09.09.2021
Hadoop: задание работает нормально с меньшим набором данных, но не работает с большим набором данных
У меня следующая ситуация
У меня есть кластер из 3 машин со следующим подтверждением.
Master
Usage of /: 91.4% of 74.41GB
MemTotal: 16557308 kB
MemFree: 723736 kB
Slave 01
Usage of /: 52.9% of 29.76GB...
15495 просмотров
schedule
28.10.2021
Hadoop Streaming: ошибка такого файла не найдена (ошибка при настройке объекта)
Я запускаю следующую команду для потоковой передачи hadoop
hadoop jar contrib/streaming/hadoop-streaming-1.0.3.jar -input test1/testregxml.xml -output testoutput2 -file ~/Programs/CMapper.php -mapper ~/Programs/CMapper.php -jobconf...
1320 просмотров
schedule
16.10.2021
Что делает PipeMapRed в потоковой передаче Hadoop?
Я выполняю задание hadoop более одного раза, и каждый раз на его завершение уходит слишком много времени, например * 15 минут * в целом.
Я проверил syslog и обнаружил, что org.apache.hadoop.streaming.PipeMapRed что-то делал в течение примерно...
1122 просмотров
schedule
27.09.2021
Как интегрировать NLTK с Hadoop HDFS?
У меня есть рабочая программа анализа настроений с использованием NLTK, которая считывает текст из файла .txt, размещенного на моем локальном компьютере. Теперь я хотел бы прочитать текстовый файл, помещенный в Hadoop HDFS, и выполнить такой же...
565 просмотров
schedule
27.09.2021
Ошибка при запуске демонов HDFS в кластере Hadoop Multinode
Проблема при настройке многоузловой системы Hadoop. Как только я запускаю демон HDFS на главном сервере (bin / start-dfs.sh)
я получил ниже журналы на Мастере
starting namenode, logging to...
5686 просмотров
schedule
13.09.2021
Обновить запись mysql из hadoop
Я завершил процесс, который прочитал файл iTunes EPF и вставил эту запись в таблицу базы данных mysql.
В котором перед вставкой записи мне нужно проверить, существует ли данная запись в базе данных или нет . Если запись не существует, я вставлю...
175 просмотров
schedule
29.11.2021
Потоковая передача Hadoop с использованием Python K-MEANS
Я хочу сделать простые k-средства с уменьшением карты hadoop и python.
Картограф получает точки и сопоставляет каждую точку с ближайшим центром. Редуктор получает центр как ключ и точки как значение и вычисляет новый центр по точкам.
Но теперь...
2000 просмотров
schedule
03.11.2021
Ошибка импорта модуля pytz во время процесса потоковой передачи hadoop
Я запускаю скрипт python на hadoop и выдает следующую ошибку
ImportError: нет модуля с именем pytz
Когда я запускаю скрипт python на терминале, он отлично работает. В идеале этого не должно происходить, потому что hadoop использует ту же...
94 просмотров
schedule
25.11.2021
Сбор результатов нескольких картографов, отсортированных в Reducer в Hadoop
У меня есть несколько очень больших файлов (почти 500 МБ) в качестве входных данных для моей программы MR. Я делю (разбиваю) эти файлы на разделы равного размера. Каждый Mapper получает один раздел файла
Mapper: Key = (имя_файла, номер_раздела) и...
286 просмотров
schedule
22.10.2021
Потоковая передача Hadoop — оболочка, выполняющая проблемы с бинарным приложением
Я новичок в Hadoop и пытаюсь использовать потоковую передачу Hadoop для распараллеливания физического моделирования, которое скомпилировано в двоичный файл. Идея состоит в том, чтобы запускать двоичный файл параллельно, используя карты с одним...
169 просмотров
schedule
19.02.2022
Сбой команды потоковой передачи Hadoop с ошибкой Python
Я новичок в Ubuntu, Hadoop и DFS, но мне удалось установить экземпляр Hadoop с одним узлом на моем локальном компьютере с Ubuntu, следуя инструкциям, опубликованным на Michael-Noll.com здесь:...
9291 просмотров
schedule
19.03.2022
Hadoop: производительность одного узла и кластера
Я запускаю три задания MapReduce последовательно (вывод одного — это вход для другого) в кластере Hadoop с 3 узлами (1 главный и 2 подчиненных).
По-видимому, общее время, затрачиваемое отдельными заданиями на завершение работы в кластере с одним...
1213 просмотров
schedule
21.03.2022
Механизм аналитики для устройств Интернета вещей
Я работаю на провайдера M2M IoT. В полевых условиях миллионы развернутых устройств Интернета вещей. Данные собираются пограничными устройствами и отправляются на наш центральный сервер. Сервер обрабатывает данные устройства и отправляет...
114 просмотров
schedule
26.03.2022
Прикрепите дополнительные файлы к заданию потоковой передачи Python в Hadoop
Я хочу запустить задание mapreduce на ec2.
У меня есть редукторы mapper.py и helper.py, а также пакет.
По сути, мой mapper.py будет вызывать helper.py, а helper.py будет импортировать модули в пакете (которые представляют собой набор файлов...
314 просмотров
schedule
03.04.2022
DiskErrorException на подчиненной машине — многоузловая система Hadoop
Я пытаюсь обработать XML-файлы из hadoop, я получил следующую ошибку при вызове задания подсчета слов в XML-файлах.
13/07/25 12:39:57 INFO mapred.JobClient: Task Id : attempt_201307251234_0001_m_000008_0, Status : FAILED
Too many fetch-failures...
1301 просмотров
schedule
05.05.2022
API потоковой передачи Hadoop: как удалить ненужные разделители
Скажем, у меня есть файл на HDFS:
1
2
3
Я хочу, чтобы он превратился в
a
b
c
Я написал mapper.py:
#!/usr/bin/python
import sys
for line in sys.stdin:
print chr(int(line) + ord('a') - 1)
затем с...
1388 просмотров
schedule
03.05.2022