У меня есть таблица количества совпадений, хранящаяся на s3 (где каждая строка — [key-a, key-b, count]), и я хочу создать из нее матрицу вероятности совпадения.
Для этого мне нужно вычислить сумму счетчиков для каждого ключа-а, а затем разделить каждую строку на сумму для ее ключа-а.
Если бы я делал это «вручную», я бы сделал проход по данным, чтобы создать хэш-таблицу от ключей к итогам (в leveldb или что-то подобное), а затем сделал второй проход по данным, чтобы выполнить деление. Это не похоже на очень каскалогический способ сделать это.
Есть ли способ получить общую сумму для строки, выполнив эквивалент самосоединения?