Я столкнулся с той же проблемой, и у меня нет хорошего общего решения -
Сценарий такой:
- У меня есть исходная таблица в базе данных (например, MS SQL Server) с несколькими миллионами строк. Всего с парой Гб табличных данных.
- Я хочу вставить эти строки в целевую таблицу другой системы. В этой части я чувствую себя комфортно и, кажется, работает хорошо.
Проблема в том, что запуск одного потока для чтения всех X миллионов строк за один выбор / соединение всегда приводит к проблемам. Поэтому я хотел бы, чтобы Pentaho позволил мне сказать «сделать множественный выбор» и обработать 100 или 500 тысяч строк на «пакет» и продолжать обработку до тех пор, пока не закончатся строки.
Я могу жестко запрограммировать простой сценарий для запуска pan.sh с именованными параметрами для начальной строки и размера пакета - это отлично работает, но мне нужно предварительно рассчитать шаги сценария и фактические номера начальных строк.
В идеале я бы хотел, чтобы Pentaho мог установить «Количество копий» и размер пакета на этапе ввода таблицы, чтобы это было автоматически!
Есть ли у кого-нибудь пример определения задания, которое получает счетчик строк для таблицы, а затем "зацикливает" вызов преобразования, пока не будут обработаны все строки? Возможно, какой-то кусок партий можно было бы запускать параллельно для получения дополнительного кредита.
Table Input
, будет доступен выбор разделения, но я не знаю, будет ли это работать на шаге ввода таблицы. - person Brian.D.Myers   schedule 20.02.2014