Вопросы по теме 'spark-streaming'

обработка журналов в реальном времени с использованием потоковой передачи Apache Spark
Я хочу создать систему, в которой я могу читать журналы в реальном времени и использовать apache spark для их обработки. Я не понимаю, следует ли мне использовать что-то вроде kafka или flume для передачи журналов для искрового потока или я должен...
9760 просмотров

запуск нескольких экземпляров приложения Spark на мезо через марафон
Я пытаюсь запустить приложение потоковой передачи искр через марафон на мезо, и эта работа в конечном итоге сохраняет некоторые подсчеты в экземпляре кассандры. Мой вопрос: должен ли я установить количество экземпляров (на марафоне) для этого...
298 просмотров
schedule 29.09.2021

Утечка памяти Spark off heap в Yarn с прямым потоком Kafka
Я запускаю искровую потоковую передачу 1.4.0 на Yarn (дистрибутив Apache 2.6.0) с java 1.8.0_45, а также с прямым потоком Kafka. Я также использую Spark с поддержкой scala 2.11. Проблема, которую я вижу, заключается в том, что контейнеры драйвера...
1544 просмотров

Запуск в тупик при выполнении потоковой агрегации из Kafka
Несколько дней назад я опубликовал еще один вопрос с похожими пожеланиями: Как загрузить данные истории, когда запуск процесса потоковой передачи Spark и вычисление текущих агрегатов Мне удалось получить хотя бы "рабочее" решение, а это...
835 просмотров

SparkStreaming: ошибка в fileStream ()
Я пытаюсь реализовать приложение потоковой передачи искр в scala. Я хочу использовать метод fileStream () для обработки вновь поступивших файлов, а также старых файлов, находящихся в каталоге hadoop. Я следил за реализацией fileStream () из...
1487 просмотров
schedule 12.10.2021

Почему Spark убивает процесс драйвера в случае исключения?
Я новый пользователь Spark Streaming и Spark. Во время своих тестов я заметил, что одна ошибка в потоке приводит к сбою всего потокового приложения. Для большей ясности позвольте мне объяснить на примере. Предположим, что представленное...
931 просмотров
schedule 11.09.2021

Как сделать поток DStream Spark в виде таблицы SQL
Цель здесь следующая: считывать данные из Socket с помощью Spark Streaming каждые N секунд регистрировать полученные данные в виде таблицы SQL в качестве справочных данных будет считываться больше данных из HDFS и т. д., они также будут...
1586 просмотров

Перепишите Java-приложение Spark на Scala
Я пытаюсь «преобразовать» свое приложение Spark, написанное на Java, в Scala. Поскольку я новичок в Scala и Scala API от Spark, я не знаю, как написать эту функцию «transformToPair» в Scala: Джава: JavaPairDStream<String, Boolean>...
252 просмотров
schedule 08.11.2021

SparkR для стриминга с Spark 1.6
Любая идея, может ли SparkR для Spark 1.6 вызывать методы для потоковой передачи, например. скажем, регрессия потокового лайнера с SGD. Если да, может ли кто-нибудь поделиться ссылками. Спасибо!
120 просмотров
schedule 22.10.2021

Сколько RDD генерирует DStream за пакетный интервал?
Создает ли один пакетный интервал данных один и только один RDD в DStream независимо от того, насколько велик объем данных?
1940 просмотров
schedule 15.10.2021

Что происходит внутри, когда мы соединяем два DStream, сгруппированных по ключам?
Я новичок в искре (потоковая передача искр в Python), и, если я правильно понял, DStream - это последовательность RDD. Представьте, что в нашем коде есть: ssc = StreamingContext(sc, 5) Таким образом, каждые 5 секунд создается объект...
196 просмотров
schedule 22.11.2021

build.sbt: как добавить искровые зависимости
Здравствуйте, я пытаюсь загрузить spark-core , spark-streaming , twitter4j и spark-streaming-twitter в файле build.sbt ниже: name := "hello" version := "1.0" scalaVersion := "2.11.8" libraryDependencies += "org.apache.spark" %%...
47455 просмотров
schedule 24.10.2021

Эквивалент RDD для каждой искры во Flink
в Apache Spark мы много раз используем RDD forEach для оценки или обработки всех данных в RDD ... Я хочу знать, что эквивалентно тому же в Apache Flink ??
575 просмотров

Spark aggregateByKey в наборе данных
Вот пример aggregateByKey на mutable.HashSet [String], написанный @ bbejeck val initialSet = mutable.HashSet.empty[String] val addToSet = (s: mutable.HashSet[String], v: String) => s += v val mergePartitionSets = (p1:...
1677 просмотров

Получение пустого набора при чтении данных из kafka-Spark-Streaming
Привет, я новичок в Spark Streaming. Я пытаюсь прочитать XML-файл и отправить его в тему kafka. Вот мой код Kafka, который отправляет данные Kafka-console-consumer. Код: package org.apache.kafka.Kafka_Producer; import...
1110 просмотров

Сохранение данных из SparkStreaming Workers в базу данных
В SparkStreaming следует перенести часть сохранения на другой уровень, поскольку контекст SparkStreaming недоступен, когда мы используем SparkCassandraConnector , если наша база данных - cassandra. Более того, даже если мы используем какую-то другую...
386 просмотров

Spark Direct Streaming - используйте одно и то же сообщение у нескольких потребителей
Как использовать Kakfa topic messages у нескольких потребителей, используя Direct Stream approach? Является ли это возможным? Поскольку подход Direct Stream не имеет Consumer Group концепции. Что произойдет, если я передам group.id как...
480 просмотров

Потоковая передача Spark и концентраторы событий Azure mapWithState
Я успешно интегрировал код для извлечения сообщений из концентратора событий и их обработки с помощью искровой / искровой потоковой передачи. Теперь я перехожу к управлению состоянием по мере прохождения сообщений. Это код, который я использую,...
531 просмотров

Подход без ресивера для искрообразования с кинезисом
Для потоковой передачи Spark с kafka у нас есть Directstream, который является подходом без приемника и сопоставляет разделы kafka с разделами RDD. В настоящее время у нас есть приложение, в котором мы используем подход Kafka Direct и поддерживаем...
315 просмотров

API для статистики потоковой передачи Spark
Я ищу API, который позволяет получить доступ к статистике потоковой передачи Spark, которая доступна на вкладке «Потоковая передача» на сервере истории. Меня в основном интересует значение времени пакетной обработки, но оно не доступно напрямую...
1621 просмотров
schedule 04.10.2021