Мы использовали Cascading framework для создания ETL.
Каскад дает.
- оптимизированные соединения
- Параллельно работающие задания
- Создание контрольных точек
- Разработчики могут работать на своем любимом языке (java, ruby, scala, clojure).
- Модульное тестирование.
Теперь у нас есть два варианта преобразования некоторых заданий X ETL (что является дорогостоящим) в задания Hadoop.
- Каскадные рабочие потоки.
- Талантливые рабочие места.
Мой вопрос.
- Talend использует свинью, улей и т. д. в качестве компонентов для создания задания. Тогда есть ли у нас какие-то преимущества в производительности или Talend импровизирует?
- Что касается Talend, нужно ли нам беспокоиться о модульном тестировании (которое предоставляет Cascading framework)?
- Если мы выберем Talend вместо каскадирования для создания заданий (преобразование X ETL в задания Hadoop), то это хороший вариант.
преобразование X ETL в каскадные рабочие процессы потребует создания всех компонентов, доступных в данном X ETL, но это будет однократное действие. Затем нам нужно подумать о других функциях, которые также предоставляет Talend Studio, например:
a. Data quality. b. Data Profiling. c. Data lineage, etc.
- Что касается ремонтопригодности, каскадные задания довольно хорошо управляются, может ли кто-нибудь дать некоторую информацию о talend.
Суть в том, что я создаю инструмент преобразования X ETL в рабочие места Hadoop. И мне нужно выбрать из Cascading framework или Talend.