У меня есть очень большой файл сетевой трассировки с двумя временными метками для каждого пакета. Я вычисляю разницу между временными метками для каждой пары последовательных пакетов.
delta_ts1 = ts1(packet N) - ts1(packet N-1)
delta_ts2 = ts2(packet N) - ts2(packet N-1)
Предположим, что ts_2 является эталонным значением, и я хочу протестировать ts_1 против ts_2.
И дисперсия ts_variance = (delta_ts2 - mean_ts)^2/packet_count
Теперь проблема с вышеуказанным подходом заключается в том, что я не получаю среднее значение, пока не дойду до конца файла. Я хочу добиться этого за один разбор. Я думаю об использовании подхода, как показано ниже
running_mean_till_now += ts2/packet_count_till_now
ts_variance = (delta_ts2 - running_mean_till_now)^2/packet_count_till_now
Такой подход приемлем? Насколько точными будут расчетная дисперсия и, следовательно, стандартное отклонение при использовании этого подхода?