Я работаю с большим набором данных (3,5 млн строк и 40 столбцов), и мне нужно очистить некоторые значения, чтобы я мог рассчитать другие параметры, которые мне необходимы, когда я начну формулировать модель на основе данных.
Проблема в том, что применение циклов for, которые я использовал, занимает целую вечность, поэтому я хотел попробовать использовать пакет ff. Фрейм данных называется данными и состоит из набора информации о клиенте для банка. Он был импортирован как файл .csv. Что мне нужно сделать, так это удалить всех клиентов (с пометкой Serial), если их переменная AverageStanding когда-либо была отрицательной.
> ffd<-as.ffdf(data)
> lastserial = tail(ffd$Serial,1)
> for(k in 1:lastserial){
+ tempvecWith <- vector()
+ tempvecWith <- ffd[ffd$Serial==k, ]$AverageStanding
+ if(any(tempvecWith < 0)){
+ ffd_clean<- ffd[!ffd$Serial ==k, ]
+ }
+ }
Это ошибка, которую я получаю:
Error in as.hi.integer(x, maxindex = maxindex, dim = dim, vw = vw, pack = pack) :
NAs in as.hi.integer
Любые идеи о том, как я могу избежать этих ошибок?