Статьи по теме spark-streaming [apache-kafka, apache-spark, spark-streaming, flume, marathon]

Вопросы по теме 'spark-streaming'

обработка журналов в реальном времени с использованием потоковой передачи Apache Spark

Я хочу создать систему, в которой я могу читать журналы в реальном времени и использовать apache spark для их обработки. Я не понимаю, следует ли мне использовать что-то вроде kafka или flume для передачи журналов для искрового потока или я должен...

9760 просмотров

02.10.2021

запуск нескольких экземпляров приложения Spark на мезо через марафон

Я пытаюсь запустить приложение потоковой передачи искр через марафон на мезо, и эта работа в конечном итоге сохраняет некоторые подсчеты в экземпляре кассандры. Мой вопрос: должен ли я установить количество экземпляров (на марафоне) для этого...

298 просмотров

spark-streaming marathon mesos

29.09.2021

Утечка памяти Spark off heap в Yarn с прямым потоком Kafka

Я запускаю искровую потоковую передачу 1.4.0 на Yarn (дистрибутив Apache 2.6.0) с java 1.8.0_45, а также с прямым потоком Kafka. Я также использую Spark с поддержкой scala 2.11. Проблема, которую я вижу, заключается в том, что контейнеры драйвера...

1544 просмотров

apache-spark spark-streaming yarn apache-spark-1.4

04.10.2021

Запуск в тупик при выполнении потоковой агрегации из Kafka

Несколько дней назад я опубликовал еще один вопрос с похожими пожеланиями: Как загрузить данные истории, когда запуск процесса потоковой передачи Spark и вычисление текущих агрегатов Мне удалось получить хотя бы "рабочее" решение, а это...

835 просмотров

apache-spark apache-spark-sql spark-streaming scala

23.10.2021

SparkStreaming: ошибка в fileStream ()

Я пытаюсь реализовать приложение потоковой передачи искр в scala. Я хочу использовать метод fileStream () для обработки вновь поступивших файлов, а также старых файлов, находящихся в каталоге hadoop. Я следил за реализацией fileStream () из...

1487 просмотров

apache-spark spark-streaming scala

12.10.2021

Почему Spark убивает процесс драйвера в случае исключения?

Я новый пользователь Spark Streaming и Spark. Во время своих тестов я заметил, что одна ошибка в потоке приводит к сбою всего потокового приложения. Для большей ясности позвольте мне объяснить на примере. Предположим, что представленное...

931 просмотров

apache-spark spark-streaming

11.09.2021

Как сделать поток DStream Spark в виде таблицы SQL

Цель здесь следующая: считывать данные из Socket с помощью Spark Streaming каждые N секунд регистрировать полученные данные в виде таблицы SQL в качестве справочных данных будет считываться больше данных из HDFS и т. д., они также будут...

1586 просмотров

apache-spark apache-spark-sql spark-streaming

11.09.2021

Перепишите Java-приложение Spark на Scala

Я пытаюсь «преобразовать» свое приложение Spark, написанное на Java, в Scala. Поскольку я новичок в Scala и Scala API от Spark, я не знаю, как написать эту функцию «transformToPair» в Scala: Джава: JavaPairDStream<String, Boolean>...

252 просмотров

java apache-spark spark-streaming scala

08.11.2021

SparkR для стриминга с Spark 1.6

Любая идея, может ли SparkR для Spark 1.6 вызывать методы для потоковой передачи, например. скажем, регрессия потокового лайнера с SGD. Если да, может ли кто-нибудь поделиться ссылками. Спасибо!

120 просмотров

spark-streaming sparkr

22.10.2021

Сколько RDD генерирует DStream за пакетный интервал?

Создает ли один пакетный интервал данных один и только один RDD в DStream независимо от того, насколько велик объем данных?

1940 просмотров

apache-spark spark-streaming

15.10.2021

Что происходит внутри, когда мы соединяем два DStream, сгруппированных по ключам?

Я новичок в искре (потоковая передача искр в Python), и, если я правильно понял, DStream - это последовательность RDD. Представьте, что в нашем коде есть: ssc = StreamingContext(sc, 5) Таким образом, каждые 5 секунд создается объект...

196 просмотров

spark-streaming

22.11.2021

build.sbt: как добавить искровые зависимости

Здравствуйте, я пытаюсь загрузить spark-core , spark-streaming , twitter4j и spark-streaming-twitter в файле build.sbt ниже: name := "hello" version := "1.0" scalaVersion := "2.11.8" libraryDependencies += "org.apache.spark" %%...

47455 просмотров

apache-spark spark-streaming scala sbt

24.10.2021

Эквивалент RDD для каждой искры во Flink

в Apache Spark мы много раз используем RDD forEach для оценки или обработки всех данных в RDD ... Я хочу знать, что эквивалентно тому же в Apache Flink ??

575 просмотров

apache-spark spark-streaming apache-flink flink-streaming

16.09.2021

Spark aggregateByKey в наборе данных

Вот пример aggregateByKey на mutable.HashSet [String], написанный @ bbejeck val initialSet = mutable.HashSet.empty[String] val addToSet = (s: mutable.HashSet[String], v: String) => s += v val mergePartitionSets = (p1:...

1677 просмотров

apache-spark apache-spark-sql spark-streaming scala spark-dataframe

04.10.2021

Получение пустого набора при чтении данных из kafka-Spark-Streaming

Привет, я новичок в Spark Streaming. Я пытаюсь прочитать XML-файл и отправить его в тему kafka. Вот мой код Kafka, который отправляет данные Kafka-console-consumer. Код: package org.apache.kafka.Kafka_Producer; import...

1110 просмотров

apache-kafka apache-spark spark-streaming spark-dataframe

04.11.2021

Сохранение данных из SparkStreaming Workers в базу данных

В SparkStreaming следует перенести часть сохранения на другой уровень, поскольку контекст SparkStreaming недоступен, когда мы используем SparkCassandraConnector , если наша база данных - cassandra. Более того, даже если мы используем какую-то другую...

386 просмотров

apache-spark spark-streaming datastax datastax-enterprise

22.11.2021

Spark Direct Streaming - используйте одно и то же сообщение у нескольких потребителей

Как использовать Kakfa topic messages у нескольких потребителей, используя Direct Stream approach? Является ли это возможным? Поскольку подход Direct Stream не имеет Consumer Group концепции. Что произойдет, если я передам group.id как...

480 просмотров

spark-streaming scala kafka-consumer-api

17.09.2021

Потоковая передача Spark и концентраторы событий Azure mapWithState

Я успешно интегрировал код для извлечения сообщений из концентратора событий и их обработки с помощью искровой / искровой потоковой передачи. Теперь я перехожу к управлению состоянием по мере прохождения сообщений. Это код, который я использую,...

531 просмотров

azure apache-spark azure-eventhub spark-streaming

16.10.2021

Подход без ресивера для искрообразования с кинезисом

Для потоковой передачи Spark с kafka у нас есть Directstream, который является подходом без приемника и сопоставляет разделы kafka с разделами RDD. В настоящее время у нас есть приложение, в котором мы используем подход Kafka Direct и поддерживаем...

315 просмотров

apache-spark spark-streaming amazon-kinesis

23.10.2021

API для статистики потоковой передачи Spark

Я ищу API, который позволяет получить доступ к статистике потоковой передачи Spark, которая доступна на вкладке «Потоковая передача» на сервере истории. Меня в основном интересует значение времени пакетной обработки, но оно не доступно напрямую...

1621 просмотров

apache-spark spark-streaming

04.10.2021