Перевод заданий ETL из IBM Datastage в Apache Spark

Примерно 10 лет назад все наши рабочие нагрузки ETL разрабатывались на IBM Datastage и Oracle в качестве базы данных, но теперь предприятие ищет варианты на платформах с открытым исходным кодом, которые предлагают распределенные параллельные вычисления , чтобы выполнять те же задачи за меньшее время, а также сэкономить на технологиях. Я никогда не был специалистом по Java все это время, однако у меня есть знания Python, а также я прошел формальное обучение Apache Spark, и я хочу использовать эти знания при переводе наших существующих проектов Datastage в Spark. Ниже приведены некоторые из общих операций, которые мы в настоящее время выполняем для всех наших заданий Datastage.

  1. читать данные из плоского файла (txt / csv)
  2. выполнять поиск (нормальный / диапазон / разреженный) в других небольших таблицах данных
  3. выполнить соединение с другими БОЛЬШИМИ таблицами
  4. записывать данные в таблицу
  5. вызвать Siebel Enterprise Integration Manager для загрузки данных из одной таблицы в таблицу Siebel
  6. извлекать данные из нескольких таблиц и создавать ОДИН плоский файл (txt / csv)
  7. ftp файл на целевой сервер

Можно ли все эти операции выполнить из Spark? По крайней мере, я пытаюсь воссоздать шаги №1, №2, №3, №4 и №6 в Spark, что (насколько мне известно о Spark) достижимо.

Пожалуйста, помогите / перенаправьте меня на ресурсы, которые помогут в этом отношении.


person Community    schedule 16.09.2020    source источник
comment
Хорошо написано, но извините, запросы рекомендаций не по теме. StackOverflow предназначен для решения проблем программного кода. Прочтите Справку по теме и Help-How-to-ask, прежде чем размещать здесь другие вопросы. Удачи.   -  person shellter    schedule 16.09.2020


Ответы (1)


DataStage может работать на Spark. Поговорите со своим представителем IBM по работе с клиентами. https://www.ibm.com/support/knowledgecenter/SSZJPZ_11.7.0/com.ibm.swg.im.iis.ds.fd.doc/topics/t_config_spark.html

person Ray Wurlod    schedule 24.09.2020