Статьи по теме emr

Публикации по теме 'emr'

Масштабирование специализированного машинного обучения на AWS - часть 2, EMR

Масштабирование VariantSpark Это вторая часть серии, состоящей из нескольких частей, в которой подробно описана работа с командой CSIRO Bioinformatics над масштабированием их пользовательской библиотеки машинного обучения VariantSpark в облаке AWS. VariantSpark построен на Scala на ядре Apache Spark. VariantSpark реализует настраиваемый алгоритм машинного обучения (RandomForest), который включает разбиение чрезвычайно широких входных данных для анализа. Хотя он был создан для..

Машинное обучение в здравоохранении открыло новые возможности, хотя и с некоторыми проблемами.

В здравоохранении предстоит решить серьезные проблемы, начиная от диагностики, лечения и профилактики заболеваний. От Силиконовой долины до стартапов в Бангалоре готовы воспользоваться возможностью использовать медицинские данные для решения этих проблем и создания огромной ценности. Это то, о чем вы могли подумать, это прекрасная возможность, лежащая перед всеми нами сегодня. Но ждать! В сфере здравоохранения есть препятствия, которых нет в других отраслях. Какие? Давайте..

Электронные медицинские записи: плюсы и минусы

Внедрение технологий является важнейшим фактором инноваций, конкурентоспособности и положительного опыта клиентов. В настоящее время трудно представить себе отрасль, в которой не было бы сильной оцифровки. Например, электронное обучение стало обычным явлением для студентов и преподавателей по всему миру, особенно в условиях пандемии 2020 года. Учебные материалы, хранящиеся в Интернете, электронные классы и журналы больше не являются сюжетом научно-фантастического фильма, это часть..

Вопросы по теме 'emr'

Загрузка столбца типа данных карты с использованием скрипта Python в качестве редуктора с использованием hive

В одном из столбцов таблицы Hive я хочу хранить пары ключ-значение. Сложная карта типов данных Hive поддерживает эту конструкцию. (Это всего лишь игрушечный пример того, что я хочу делать, у меня есть еще много столбцов, которые я хочу сжать вот...

626 просмотров

22.10.2021

Активность EMR застряла в состоянии Waiting_For_Runner

Я создаю конвейер данных для экспорта таблицы DynamoDB в корзину S3. Я использовал стандартный шаблон для этого в консоли конвейера данных. Я проверил, что в поле runOn указано имя запускаемого кластера EMR. Однако статус активности EMR по-прежнему...

3501 просмотров

amazon-web-services amazon-data-pipeline emr

27.10.2021

AWS EMR Cluster не запускается

Я пытаюсь запустить кластер AWS EMR из консоли AWS и получаю следующую ошибку: Failed to provision ec2 instances because 'IAM Instance Profile "arn:aws:iam::553706642095:instance-profile/EMR_EC2_DefaultRole" has no associated IAM Roles...

3740 просмотров

amazon-web-services amazon-iam emr

22.10.2021

Как заставить подчиненные узлы работать для кластера Spark с помощью EMR?

Я попытался запустить задание на своем кластере Spark с помощью EMR. Кластер состоит из одного ведущего и двух ведомых узлов, и каждый узел (ведущий или ведомый узел) имеет 32 ядра. Задание использовало «Добавить шаг» через консоль, конфигурация...

2938 просмотров

amazon-web-services apache-spark emr

17.10.2021

Задание MapReduce (написанное на Python) медленно работает на EMR

Я пытаюсь написать задание MapReduce, используя пакет MRJob python. Задание обрабатывает ~ 36 000 файлов, хранящихся в S3. Размер каждого файла составляет ~ 2 МБ. Когда я запускаю задание локально (загружая ведро S3 на свой компьютер), его...

453 просмотров

python hadoop mapreduce mrjob emr

16.11.2021

AWS EMR Step завершился неудачно из-за сбоев созданных им рабочих мест

Я пытаюсь проанализировать набор данных представления статей Википедии с помощью Amazon EMR. Этот набор данных содержит статистику просмотров страниц за трехмесячный период (1 января 2011 г. - 31 марта 2011 г.). Я пытаюсь найти статью с наибольшим...

2179 просмотров

java amazon-web-services hadoop mapreduce emr

01.12.2021

Как настроить параметры Hadoop MapReduce в Amazon EMR?

Моя работа MR закончилась на карте 100% уменьшение 35% с большим количеством сообщений об ошибках, похожих на running beyond physical memory limits. Current usage: 3.0 GB of 3 GB physical memory used; 3.7 GB of 15 GB virtual memory used. Killing...

1177 просмотров

amazon-emr hadoop memory hadoop2 emr

16.09.2021

Роли / разрешения для создания кластера EMR с помощью aws cli

Я пытаюсь создать кластер с помощью команды aws emr. Для начала, у меня нет роли администратора, чтобы делать большую часть работы. aws emr create-cluster --release-label emr-4.2.0 --instance-groups...

2514 просмотров

amazon-web-services apache-spark aws-cli emr

16.11.2021

Spark не может получить события из Amazon Kinesis

Недавно я пытался получить события чтения Spark из Kinesis, но у меня проблемы с получением событий. Хотя Spark может подключаться к Kinesis и получать метаданные от Kinesis, он не может получать от него события. Он всегда возвращает нулевые...

1032 просмотров

apache-spark amazon-kinesis emr

18.10.2021

Spark 1.6 при записи EMR в S3, поскольку Parquet зависает и дает сбой

Я создаю приложение uber jar spark, которое я отправляю в кластер EMR 4.3, я инициализирую 4 экземпляра r3.xlarge, один в качестве главного, а три других в качестве ядер. У меня были предустановленные с консоли hadoop 2.7.1, ganglia 3.7.2 spark 1.6...

3810 просмотров

amazon-s3 parquet apache-spark garbage-collection emr

01.10.2021

Нужен совет по стратегии миграции больших таблиц из RDS в DynamoDB

У нас есть пара огромных таблиц mySql в RDS (более 700 ГБ), которые мы хотели бы перенести в таблицу DynamoDB. Можете ли вы предложить стратегию или направление, чтобы сделать это чистым параллельным способом? Возможно, с помощью EMR или AWS Data...

1105 просмотров

amazon-web-services amazon-dynamodb amazon-rds amazon-data-pipeline emr

13.10.2021

Метод Spark RDD saveAsTextFile выдает исключение Даже после удаления выходного каталога. org.apache.hadoop.mapred.FileAlreadyExistsException

Я вызываю этот метод в RDD [String] с назначением в аргументах. (Скала) Даже после удаления каталога перед запуском процесс выдает эту ошибку. Я запускаю этот процесс в кластере EMR с расположением вывода на aws S3. Ниже используется команда:...

2938 просмотров

amazon-web-services apache-spark scala rdd emr

31.10.2021

Установка RStudio на EMR

У меня есть существующий кластер EMR. Как мне установить на него RStudio. Я вижу много инструкций по загрузке для установки RStudio на EMR. Но, как я понимаю, они используются при создании нового кластера. Как мне установить Rstudio (или сказать...

1040 просмотров

rstudio rstudio-server emr

09.10.2021

Неверная конфигурация в файле конфигурации: /home/hadoop/hive.config "

Я пытаюсь запланировать работу улья с помощью Amazon -EMR. Я выполнил инструкции, указанные в ссылке http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/kinesis-hive-scripted-queries.html Однако я получаю сообщение об ошибке...

72 просмотров

amazon-web-services amazon-emr hadoop hive emr

20.09.2021

Как мне получить Spark на emr-5.2.1 для записи в Dynamodb?

Согласно это статья здесь , когда я создаю кластер aws emr, который будет использовать искру для передачи данных в Dynamodb, мне нужно предварять строку: spark-shell --jars /usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jar Эта строка...

1058 просмотров

amazon-dynamodb apache-spark scala emr

17.10.2021

Укажите конфигурацию безопасности AWS EMR из шаблона AWS, лямбда

Я создаю кластер EMR через формирование облака. Я уже создал конфигурацию безопасности из консоли управления AWS. Я не могу найти способ добавить эту конфигурацию безопасности при создании EMR из облака. В качестве альтернативы я могу...

259 просмотров

amazon-web-services aws-lambda amazon-cloudformation emr

20.02.2022

Агрегация журналов YARN в AWS EMR - UnsupportedFileSystemException

Я изо всех сил пытаюсь включить агрегирование журналов YARN для моего кластера Amazon EMR. Я следую этой документации по настройке:...

3450 просмотров

amazon-emr hadoop yarn hadoop2 emr

02.03.2022

collect () или toPandas () в большом DataFrame в pyspark / EMR

У меня есть кластер EMR одной машины «c3.8xlarge», после прочтения нескольких ресурсов я понял, что должен разрешить приличный объем памяти вне кучи, потому что я использую pyspark, поэтому я настроил кластер следующим образом: Один исполнитель:...

28222 просмотров

pandas apache-spark pyspark amazon-emr emr

08.03.2022

Spark Dataframe загружает 500k файлов на EMR

Я выполняю задание pyspark в EMR (5.5.1) с Spark 2.1.0, Hadoop 2.7.3, Hive 2.1.1, Sqoop 1.4.6 и Ganglia 3.7.2, которое загружает данные из s3. Есть несколько сегментов, которые содержат входные файлы, поэтому у меня есть функция, которая использует...

973 просмотров

python-2.7 amazon-s3 apache-spark pyspark emr

05.03.2022

Hadoop создает InputSplits параллельно

У меня есть большой текстовый файл размером около 13 ГБ. Я хочу обработать файл с помощью Hadoop. Я знаю, что Hadoop использует FileInputFormat для создания InputSplits, которые назначаются задачам сопоставления. Я хочу знать, создает ли Hadoop эти...

156 просмотров

amazon-emr hadoop mapreduce emr

30.03.2022