Публикации по теме 'emr'


Масштабирование специализированного машинного обучения на AWS - часть 2, EMR
Масштабирование VariantSpark Это вторая часть серии, состоящей из нескольких частей, в которой подробно описана работа с командой CSIRO Bioinformatics над масштабированием их пользовательской библиотеки машинного обучения VariantSpark в облаке AWS. VariantSpark построен на Scala на ядре Apache Spark. VariantSpark реализует настраиваемый алгоритм машинного обучения (RandomForest), который включает разбиение чрезвычайно широких входных данных для анализа. Хотя он был создан для..

Машинное обучение в здравоохранении открыло новые возможности, хотя и с некоторыми проблемами.
В здравоохранении предстоит решить серьезные проблемы, начиная от диагностики, лечения и профилактики заболеваний. От Силиконовой долины до стартапов в Бангалоре готовы воспользоваться возможностью использовать медицинские данные для решения этих проблем и создания огромной ценности. Это то, о чем вы могли подумать, это прекрасная возможность, лежащая перед всеми нами сегодня. Но ждать! В сфере здравоохранения есть препятствия, которых нет в других отраслях. Какие? Давайте..

Электронные медицинские записи: плюсы и минусы
Внедрение технологий является важнейшим фактором инноваций, конкурентоспособности и положительного опыта клиентов. В настоящее время трудно представить себе отрасль, в которой не было бы сильной оцифровки. Например, электронное обучение стало обычным явлением для студентов и преподавателей по всему миру, особенно в условиях пандемии 2020 года. Учебные материалы, хранящиеся в Интернете, электронные классы и журналы больше не являются сюжетом научно-фантастического фильма, это часть..

Вопросы по теме 'emr'

Загрузка столбца типа данных карты с использованием скрипта Python в качестве редуктора с использованием hive
В одном из столбцов таблицы Hive я хочу хранить пары ключ-значение. Сложная карта типов данных Hive поддерживает эту конструкцию. (Это всего лишь игрушечный пример того, что я хочу делать, у меня есть еще много столбцов, которые я хочу сжать вот...
626 просмотров
schedule 22.10.2021

Активность EMR застряла в состоянии Waiting_For_Runner
Я создаю конвейер данных для экспорта таблицы DynamoDB в корзину S3. Я использовал стандартный шаблон для этого в консоли конвейера данных. Я проверил, что в поле runOn указано имя запускаемого кластера EMR. Однако статус активности EMR по-прежнему...
3501 просмотров

AWS EMR Cluster не запускается
Я пытаюсь запустить кластер AWS EMR из консоли AWS и получаю следующую ошибку: Failed to provision ec2 instances because 'IAM Instance Profile "arn:aws:iam::553706642095:instance-profile/EMR_EC2_DefaultRole" has no associated IAM Roles...
3740 просмотров
schedule 22.10.2021

Как заставить подчиненные узлы работать для кластера Spark с помощью EMR?
Я попытался запустить задание на своем кластере Spark с помощью EMR. Кластер состоит из одного ведущего и двух ведомых узлов, и каждый узел (ведущий или ведомый узел) имеет 32 ядра. Задание использовало «Добавить шаг» через консоль, конфигурация...
2938 просмотров
schedule 17.10.2021

Задание MapReduce (написанное на Python) медленно работает на EMR
Я пытаюсь написать задание MapReduce, используя пакет MRJob python. Задание обрабатывает ~ 36 000 файлов, хранящихся в S3. Размер каждого файла составляет ~ 2 МБ. Когда я запускаю задание локально (загружая ведро S3 на свой компьютер), его...
453 просмотров
schedule 16.11.2021

AWS EMR Step завершился неудачно из-за сбоев созданных им рабочих мест
Я пытаюсь проанализировать набор данных представления статей Википедии с помощью Amazon EMR. Этот набор данных содержит статистику просмотров страниц за трехмесячный период (1 января 2011 г. - 31 марта 2011 г.). Я пытаюсь найти статью с наибольшим...
2179 просмотров

Как настроить параметры Hadoop MapReduce в Amazon EMR?
Моя работа MR закончилась на карте 100% уменьшение 35% с большим количеством сообщений об ошибках, похожих на running beyond physical memory limits. Current usage: 3.0 GB of 3 GB physical memory used; 3.7 GB of 15 GB virtual memory used. Killing...
1177 просмотров
schedule 16.09.2021

Роли / разрешения для создания кластера EMR с помощью aws cli
Я пытаюсь создать кластер с помощью команды aws emr. Для начала, у меня нет роли администратора, чтобы делать большую часть работы. aws emr create-cluster --release-label emr-4.2.0 --instance-groups...
2514 просмотров

Spark не может получить события из Amazon Kinesis
Недавно я пытался получить события чтения Spark из Kinesis, но у меня проблемы с получением событий. Хотя Spark может подключаться к Kinesis и получать метаданные от Kinesis, он не может получать от него события. Он всегда возвращает нулевые...
1032 просмотров
schedule 18.10.2021

Spark 1.6 при записи EMR в S3, поскольку Parquet зависает и дает сбой
Я создаю приложение uber jar spark, которое я отправляю в кластер EMR 4.3, я инициализирую 4 экземпляра r3.xlarge, один в качестве главного, а три других в качестве ядер. У меня были предустановленные с консоли hadoop 2.7.1, ganglia 3.7.2 spark 1.6...
3810 просмотров

Нужен совет по стратегии миграции больших таблиц из RDS в DynamoDB
У нас есть пара огромных таблиц mySql в RDS (более 700 ГБ), которые мы хотели бы перенести в таблицу DynamoDB. Можете ли вы предложить стратегию или направление, чтобы сделать это чистым параллельным способом? Возможно, с помощью EMR или AWS Data...
1105 просмотров

Метод Spark RDD saveAsTextFile выдает исключение Даже после удаления выходного каталога. org.apache.hadoop.mapred.FileAlreadyExistsException
Я вызываю этот метод в RDD [String] с назначением в аргументах. (Скала) Даже после удаления каталога перед запуском процесс выдает эту ошибку. Я запускаю этот процесс в кластере EMR с расположением вывода на aws S3. Ниже используется команда:...
2938 просмотров

Установка RStudio на EMR
У меня есть существующий кластер EMR. Как мне установить на него RStudio. Я вижу много инструкций по загрузке для установки RStudio на EMR. Но, как я понимаю, они используются при создании нового кластера. Как мне установить Rstudio (или сказать...
1040 просмотров
schedule 09.10.2021

Неверная конфигурация в файле конфигурации: /home/hadoop/hive.config "
Я пытаюсь запланировать работу улья с помощью Amazon -EMR. Я выполнил инструкции, указанные в ссылке http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/kinesis-hive-scripted-queries.html Однако я получаю сообщение об ошибке...
72 просмотров

Как мне получить Spark на emr-5.2.1 для записи в Dynamodb?
Согласно это статья здесь , когда я создаю кластер aws emr, который будет использовать искру для передачи данных в Dynamodb, мне нужно предварять строку: spark-shell --jars /usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jar Эта строка...
1058 просмотров
schedule 17.10.2021

Укажите конфигурацию безопасности AWS EMR из шаблона AWS, лямбда
Я создаю кластер EMR через формирование облака. Я уже создал конфигурацию безопасности из консоли управления AWS. Я не могу найти способ добавить эту конфигурацию безопасности при создании EMR из облака. В качестве альтернативы я могу...
259 просмотров

Агрегация журналов YARN в AWS EMR - UnsupportedFileSystemException
Я изо всех сил пытаюсь включить агрегирование журналов YARN для моего кластера Amazon EMR. Я следую этой документации по настройке:...
3450 просмотров
schedule 02.03.2022

collect () или toPandas () в большом DataFrame в pyspark / EMR
У меня есть кластер EMR одной машины «c3.8xlarge», после прочтения нескольких ресурсов я понял, что должен разрешить приличный объем памяти вне кучи, потому что я использую pyspark, поэтому я настроил кластер следующим образом: Один исполнитель:...
28222 просмотров
schedule 08.03.2022

Spark Dataframe загружает 500k файлов на EMR
Я выполняю задание pyspark в EMR (5.5.1) с Spark 2.1.0, Hadoop 2.7.3, Hive 2.1.1, Sqoop 1.4.6 и Ganglia 3.7.2, которое загружает данные из s3. Есть несколько сегментов, которые содержат входные файлы, поэтому у меня есть функция, которая использует...
973 просмотров

Hadoop создает InputSplits параллельно
У меня есть большой текстовый файл размером около 13 ГБ. Я хочу обработать файл с помощью Hadoop. Я знаю, что Hadoop использует FileInputFormat для создания InputSplits, которые назначаются задачам сопоставления. Я хочу знать, создает ли Hadoop эти...
156 просмотров
schedule 30.03.2022