Я запускаю алгоритм кластеризации навеса, используя mahout.
Это команда, которую я запускаю через командную строку mahout.
mahout canopy -i /mahout/o_seqsparse/tfidf-vectors -o /mahout/o_canopy -dm org.apache.mahout.common.distance.SquaredEuclideanDistanceMeasure -ow -t1 100 -t2 50
Ниже приведено количество запущенных задач карты и уменьшения:
Количество запущенных задач карты --> 6
Количество запущенных задач сокращения --> 1
Но это занимает слишком много времени из-за одного редуктора. Я думаю, если я смогу увеличить количество задач сокращения, то я получу лучшую производительность.
Я также пробовал с увеличением уменьшения карты с помощью mapred-site.xml
файла mapred.map.tasks mapred.reduce.tasks, но это не имеет никакого эффекта, все равно работает с 1 уменьшением.