Cascading Framework против инструментов ETL, таких как Talend

Мы использовали Cascading framework для создания ETL.

Каскад дает.

  1. оптимизированные соединения
  2. Параллельно работающие задания
  3. Создание контрольных точек
  4. Разработчики могут работать на своем любимом языке (java, ruby, scala, clojure).
  5. Модульное тестирование.

Теперь у нас есть два варианта преобразования некоторых заданий X ETL (что является дорогостоящим) в задания Hadoop.

  1. Каскадные рабочие потоки.
  2. Талантливые рабочие места.

Мой вопрос.

  1. Talend использует свинью, улей и т. д. в качестве компонентов для создания задания. Тогда есть ли у нас какие-то преимущества в производительности или Talend импровизирует?
  2. Что касается Talend, нужно ли нам беспокоиться о модульном тестировании (которое предоставляет Cascading framework)?
  3. Если мы выберем Talend вместо каскадирования для создания заданий (преобразование X ETL в задания Hadoop), то это хороший вариант.
  4. преобразование X ETL в каскадные рабочие процессы потребует создания всех компонентов, доступных в данном X ETL, но это будет однократное действие. Затем нам нужно подумать о других функциях, которые также предоставляет Talend Studio, например:

    a. Data quality.
    b. Data Profiling.
    c. Data lineage, etc.
    
  5. Что касается ремонтопригодности, каскадные задания довольно хорошо управляются, может ли кто-нибудь дать некоторую информацию о talend.

Суть в том, что я создаю инструмент преобразования X ETL в рабочие места Hadoop. И мне нужно выбрать из Cascading framework или Talend.


person Rohin Patel    schedule 16.07.2013    source источник
comment
Получил отзыв от Криса К. Вензеля (автора Cascading) групп. .google.com/forum/#!topic/cascading-user/0q-n3xHf444   -  person Rohin Patel    schedule 16.07.2013


Ответы (1)


Я не могу ответить на все ваши вопросы, но я могу поделиться своим опытом. С Talend разработка более продуктивна, чем с исходным кодом или родным языком, а исходный код проще всего поддерживать, потому что компоненты оптимизированы, а IDE для вашей работы очень понятна. Функции отладки хороши, вы можете выполнять пошаговую отладку и генерировать исходники.

Для меня неудобно управление конфигурацией, Talend не очень удачно работает со многими ветками.

person L. Quastana    schedule 17.07.2013