Я написал конвейер Luigi для извлечения 1,2 млн файлов, а затем выполнил над ними некоторую работу с sed — см. //gist.github.com/wkerzendorf/395c85a2955002412be302d708329f7f.
Если я запускаю это через Луиджи на нескольких тысячах файлов, все работает нормально. Но запуская это на всем наборе данных, он жалуется на Failed connecting to remote scheduler
. Не уверен, что я делаю это правильно.