Все мы знаем, что Pandas — одна из самых незаменимых библиотек в мире науки о данных.
Мы все используем ее в повседневной жизни. Но что происходит, когда речь идет о большом наборе данных, над которым вы работаете с простой системой с низкой конфигурацией.
Это единственная проблема, с которой мы привыкли сталкиваться в нашей повседневной жизни.
Есть много других, таких как:-
1. Панды всегда работают с одним ядром.
2. Он создает тяжелый фрейм данных, который потребляет много памяти.
3. Медленно работает с большими данными. кадров.
4. Не требует отложенного выполнения
и многое другое.
Подождите….
У нас есть Polar, молниеносно быстрая библиотека фреймов данных, которая устраняет все перечисленные выше ограничения.
Использование памяти в Polars просто потрясающее, вы можете увидеть разницу в большом наборе данных.
Как установить?
pip install polars
Я знаком с пандами, как я могу использовать Polar?
В синтаксисе нет большой разницы.
Давайте рассмотрим некоторые из них, которые мы используем регулярно.
- Import
Pandas — импортировать pandas как pd
Polars — импортировать поляры как pl - Чтение CSV-файла
#Read CSV using Pandas df = pd.read_csv(file) #Read CSV using Polars df = pl.read_csv(file)
3. Сохранить в CSV
#write CSV using Pandas df = pd.to_csv(file) #write CSV using Polars df = pl.to_csv(file)
4. Выведите первые k строк.
#Read k rows, here k=10 df.head(10) #Read k rows, here k=10 using Polars df.head(10)
5. Размеры
#shape in Pandas df.shape #shape in Polars df.shape
6. Типы данных
#Datatype in Pandas df.dtypes #Datatype in Polars df.dtypes
7. Использование памяти
#Memory Usage in Pandas df.memory_usage() #Memory Usage in Polars df.estimated_size()
8. Выберите Столбцы.
#In Pandas df[["col1","col2"]] #In Polars df[["col1","col2"]]
9. Данные фильтра
#In Pandas df[ df.column >10 ] #In Polars df[df.column > 10] #or df.filter(pl.col("column") >10)
10. Сортировать
#In Pandas df.sort_values("column") #In Polars df.sort("column")
11. Заполните NaN
#In Pandas df.column.fillna(0) #In Polars df.column.fill_nan(0)
12. Присоединяйтесь
#In Pandas pd.merge(df1,df2,on="col_name",how="inner") #In Polars df1.join(df2, on="col_name",how="inner")
13. Объединить
#In Pandas pd.concat((df1,df2)) #In Polars pl.concat((df1,df2))
14. Группировать по
#In Pandas df.groupby("column").agg_col.mean() #In Polars df.groupby("column").agg(pl.mean("agg_col"))
15. Уникальные ценности
#In Pandas df.column.unique() #In Polars df.column.unique()
16. Переименовать столбец
#In Pandas df.rename(columns={"old_name":"new_name"}) #In Polars df.rename(mapping={"old_name":"new_name"})
17. Удалить столбцы
#In Pandas df.drop(columns=["col_name"]) #In Polars df.drop(name=["col_name"])
Я перечислил почти все функции, которые мы, Data Scientist, использовали почти каждый день.
С этим вы можете сделать больше, например, вы можете зарегистрировать свой фрейм данных и выполнить SQL-запрос к тому, что не предоставляет pandas.
Надеюсь вам поможет..
Любые предложения приветствуются.