Исходный вопрос дается файлом, содержащим URL-адрес 5 ГБ, который посещался в последний день, найдите самый частый URL-адрес. Проблема может быть решена с помощью хеш-карты для подсчета вхождений различных URL-адресов и поиска вершины k с помощью минимальной кучи, что занимает время O (n log k).
Теперь я думаю, что если на вход был неограниченный онлайн-поток данных (вместо статического файла), то как я могу узнать топ k URL за последний день?
Или есть ли какое-либо улучшение, которое я могу внести в систему, которое позволит мне динамически получать лучшие URL-адреса за последнюю минуту, последний день и последние часы?
Любой намек будет оценен!!