У меня есть случай использования, когда мне нужно удалить повторяющиеся строки фрейма данных (в этом случае дубликат означает, что у них есть одно и то же поле «id»), сохраняя строку с самым высоким полем «timestamp» (unix timestamp).
Я нашел метод drop_duplicate (я использую pyspark), но у него нет контроля над тем, какой элемент будет сохранен.
Кто-нибудь может помочь? Спасибо заранее