Все мы знаем, что Pandas — одна из самых незаменимых библиотек в мире науки о данных.
Мы все используем ее в повседневной жизни. Но что происходит, когда речь идет о большом наборе данных, над которым вы работаете с простой системой с низкой конфигурацией.
Это единственная проблема, с которой мы привыкли сталкиваться в нашей повседневной жизни.

Есть много других, таких как:-
1. Панды всегда работают с одним ядром.
2. Он создает тяжелый фрейм данных, который потребляет много памяти.
3. Медленно работает с большими данными. кадров.
4. Не требует отложенного выполнения
и многое другое.

Подождите….

У нас есть Polar, молниеносно быстрая библиотека фреймов данных, которая устраняет все перечисленные выше ограничения.

Использование памяти в Polars просто потрясающее, вы можете увидеть разницу в большом наборе данных.

Как установить?
pip install polars

Я знаком с пандами, как я могу использовать Polar?
В синтаксисе нет большой разницы.

Давайте рассмотрим некоторые из них, которые мы используем регулярно.

  1. Import
    Pandas — импортировать pandas как pd
    Polars — импортировать поляры как pl
  2. Чтение CSV-файла
#Read CSV using Pandas
df = pd.read_csv(file)
#Read CSV using Polars
df = pl.read_csv(file)

3. Сохранить в CSV

#write CSV using Pandas
df = pd.to_csv(file)
#write CSV using Polars
df = pl.to_csv(file)

4. Выведите первые k строк.

#Read k rows, here k=10
df.head(10)
#Read k rows, here k=10 using Polars
df.head(10)

5. Размеры

#shape in Pandas
df.shape
#shape in  Polars
df.shape

6. Типы данных

#Datatype in Pandas
df.dtypes
#Datatype in Polars
df.dtypes

7. Использование памяти

#Memory Usage in Pandas
df.memory_usage()
#Memory Usage in Polars
df.estimated_size()

8. Выберите Столбцы.

#In Pandas
df[["col1","col2"]]
#In Polars
df[["col1","col2"]]

9. Данные фильтра

#In Pandas
df[ df.column >10 ]
#In Polars
df[df.column > 10]
#or
df.filter(pl.col("column") >10)

10. Сортировать

#In Pandas
df.sort_values("column")
#In Polars
df.sort("column")

11. Заполните NaN

#In Pandas
df.column.fillna(0)
#In Polars
df.column.fill_nan(0)

12. Присоединяйтесь

#In Pandas
pd.merge(df1,df2,on="col_name",how="inner")
#In Polars
df1.join(df2, on="col_name",how="inner")

13. Объединить

#In Pandas
pd.concat((df1,df2))
#In Polars
pl.concat((df1,df2))

14. Группировать по

#In Pandas
df.groupby("column").agg_col.mean()
#In Polars
df.groupby("column").agg(pl.mean("agg_col"))

15. Уникальные ценности

#In Pandas
df.column.unique()
#In Polars
df.column.unique()

16. Переименовать столбец

#In Pandas
df.rename(columns={"old_name":"new_name"})
#In Polars
df.rename(mapping={"old_name":"new_name"})

17. Удалить столбцы

#In Pandas
df.drop(columns=["col_name"])
#In Polars
df.drop(name=["col_name"])

Я перечислил почти все функции, которые мы, Data Scientist, использовали почти каждый день.

С этим вы можете сделать больше, например, вы можете зарегистрировать свой фрейм данных и выполнить SQL-запрос к тому, что не предоставляет pandas.

Надеюсь вам поможет..

Любые предложения приветствуются.