Вопросы по теме 'spark-streaming'
обработка журналов в реальном времени с использованием потоковой передачи Apache Spark
Я хочу создать систему, в которой я могу читать журналы в реальном времени и использовать apache spark для их обработки. Я не понимаю, следует ли мне использовать что-то вроде kafka или flume для передачи журналов для искрового потока или я должен...
9760 просмотров
schedule
02.10.2021
запуск нескольких экземпляров приложения Spark на мезо через марафон
Я пытаюсь запустить приложение потоковой передачи искр через марафон на мезо, и эта работа в конечном итоге сохраняет некоторые подсчеты в экземпляре кассандры. Мой вопрос: должен ли я установить количество экземпляров (на марафоне) для этого...
298 просмотров
schedule
29.09.2021
Утечка памяти Spark off heap в Yarn с прямым потоком Kafka
Я запускаю искровую потоковую передачу 1.4.0 на Yarn (дистрибутив Apache 2.6.0) с java 1.8.0_45, а также с прямым потоком Kafka. Я также использую Spark с поддержкой scala 2.11.
Проблема, которую я вижу, заключается в том, что контейнеры драйвера...
1544 просмотров
schedule
04.10.2021
Запуск в тупик при выполнении потоковой агрегации из Kafka
Несколько дней назад я опубликовал еще один вопрос с похожими пожеланиями:
Как загрузить данные истории, когда запуск процесса потоковой передачи Spark и вычисление текущих агрегатов
Мне удалось получить хотя бы "рабочее" решение, а это...
835 просмотров
schedule
23.10.2021
SparkStreaming: ошибка в fileStream ()
Я пытаюсь реализовать приложение потоковой передачи искр в scala. Я хочу использовать метод fileStream () для обработки вновь поступивших файлов, а также старых файлов, находящихся в каталоге hadoop.
Я следил за реализацией fileStream () из...
1487 просмотров
schedule
12.10.2021
Почему Spark убивает процесс драйвера в случае исключения?
Я новый пользователь Spark Streaming и Spark. Во время своих тестов я заметил, что одна ошибка в потоке приводит к сбою всего потокового приложения.
Для большей ясности позвольте мне объяснить на примере. Предположим, что представленное...
931 просмотров
schedule
11.09.2021
Как сделать поток DStream Spark в виде таблицы SQL
Цель здесь следующая:
считывать данные из Socket с помощью Spark Streaming каждые N секунд
регистрировать полученные данные в виде таблицы SQL
в качестве справочных данных будет считываться больше данных из HDFS и т. д., они также будут...
1586 просмотров
schedule
11.09.2021
Перепишите Java-приложение Spark на Scala
Я пытаюсь «преобразовать» свое приложение Spark, написанное на Java, в Scala. Поскольку я новичок в Scala и Scala API от Spark, я не знаю, как написать эту функцию «transformToPair» в Scala:
Джава:
JavaPairDStream<String, Boolean>...
252 просмотров
schedule
08.11.2021
SparkR для стриминга с Spark 1.6
Любая идея, может ли SparkR для Spark 1.6 вызывать методы для потоковой передачи, например. скажем, регрессия потокового лайнера с SGD. Если да, может ли кто-нибудь поделиться ссылками. Спасибо!
120 просмотров
schedule
22.10.2021
Сколько RDD генерирует DStream за пакетный интервал?
Создает ли один пакетный интервал данных один и только один RDD в DStream независимо от того, насколько велик объем данных?
1940 просмотров
schedule
15.10.2021
Что происходит внутри, когда мы соединяем два DStream, сгруппированных по ключам?
Я новичок в искре (потоковая передача искр в Python), и, если я правильно понял, DStream - это последовательность RDD.
Представьте, что в нашем коде есть:
ssc = StreamingContext(sc, 5)
Таким образом, каждые 5 секунд создается объект...
196 просмотров
schedule
22.11.2021
build.sbt: как добавить искровые зависимости
Здравствуйте, я пытаюсь загрузить spark-core , spark-streaming , twitter4j и spark-streaming-twitter в файле build.sbt ниже:
name := "hello"
version := "1.0"
scalaVersion := "2.11.8"
libraryDependencies += "org.apache.spark" %%...
47455 просмотров
schedule
24.10.2021
Эквивалент RDD для каждой искры во Flink
в Apache Spark мы много раз используем RDD forEach для оценки или обработки всех данных в RDD ... Я хочу знать, что эквивалентно тому же в Apache Flink ??
575 просмотров
schedule
16.09.2021
Spark aggregateByKey в наборе данных
Вот пример aggregateByKey на mutable.HashSet [String], написанный @ bbejeck
val initialSet = mutable.HashSet.empty[String]
val addToSet = (s: mutable.HashSet[String], v: String) => s += v
val mergePartitionSets = (p1:...
1677 просмотров
schedule
04.10.2021
Получение пустого набора при чтении данных из kafka-Spark-Streaming
Привет, я новичок в Spark Streaming. Я пытаюсь прочитать XML-файл и отправить его в тему kafka. Вот мой код Kafka, который отправляет данные Kafka-console-consumer.
Код:
package org.apache.kafka.Kafka_Producer;
import...
1110 просмотров
schedule
04.11.2021
Сохранение данных из SparkStreaming Workers в базу данных
В SparkStreaming следует перенести часть сохранения на другой уровень, поскольку контекст SparkStreaming недоступен, когда мы используем SparkCassandraConnector , если наша база данных - cassandra. Более того, даже если мы используем какую-то другую...
386 просмотров
schedule
22.11.2021
Spark Direct Streaming - используйте одно и то же сообщение у нескольких потребителей
Как использовать Kakfa topic messages у нескольких потребителей, используя Direct Stream approach?
Является ли это возможным? Поскольку подход Direct Stream не имеет Consumer Group концепции.
Что произойдет, если я передам group.id как...
480 просмотров
schedule
17.09.2021
Потоковая передача Spark и концентраторы событий Azure mapWithState
Я успешно интегрировал код для извлечения сообщений из концентратора событий и их обработки с помощью искровой / искровой потоковой передачи. Теперь я перехожу к управлению состоянием по мере прохождения сообщений. Это код, который я использую,...
531 просмотров
schedule
16.10.2021
Подход без ресивера для искрообразования с кинезисом
Для потоковой передачи Spark с kafka у нас есть Directstream, который является подходом без приемника и сопоставляет разделы kafka с разделами RDD. В настоящее время у нас есть приложение, в котором мы используем подход Kafka Direct и поддерживаем...
315 просмотров
schedule
23.10.2021
API для статистики потоковой передачи Spark
Я ищу API, который позволяет получить доступ к статистике потоковой передачи Spark, которая доступна на вкладке «Потоковая передача» на сервере истории.
Меня в основном интересует значение времени пакетной обработки, но оно не доступно напрямую...
1621 просмотров
schedule
04.10.2021