Pandas处理数据太慢，来试试Polars吧！("提升数据处理速度：从Pandas迁移到Polars的实战指南")

原创

ithorizon 6个月前 (10-19) 阅读数 26 #后端开发

提升数据处理速度：从Pandas迁移到Polars的实战指南

一、引言

在数据处理领域，Pandas无疑是一个强盛且广泛使用的工具。然而，随着数据量的逐步增长，Pandas在处理大规模数据集时大概会显得力不从心。Polars是一个新兴的数据处理库，它以Rust语言编写，旨在提供更快的性能和更低的内存使用。本文将为您介绍怎样从Pandas迁移到Polars，以提升数据处理速度。

二、Polars简介

Polars是一个开源的数据处理库，它使用Rust语言编写，可以提供比Pandas更快的数据处理速度。Polars借鉴了Pandas的API设计，促使从Pandas迁移到Polars变得更加容易。Polars的首要优势包括：

性能：Polars的性能通常比Pandas快得多，特别是在处理大型数据集时。

内存使用：Polars在处理数据时使用的内存更少。

并行处理：Polars拥护并行处理，可以充分利用多核CPU的优势。

三、安装Polars

在起初使用Polars之前，您需要先安装它。Polars可以通过pip进行安装，命令如下：

pip install polars

四、从Pandas迁移到Polars

以下是迁移过程中的一些关键步骤：

4.1 数据读取

Polars提供了与Pandas类似的API来读取数据，如CSV、Excel等。以下是一个读取CSV文件的示例：


import polars as pl
# 读取CSV文件
df = pl.read_csv("data.csv")

4.2 数据操作

Polars拥护类似于Pandas的数据操作，包括选择列、过滤行、排序、分组等。以下是一些基本操作的示例：


# 选择列
df_selected = df.select(["column1", "column2"])
# 过滤行
df_filtered = df.filter((df["column1"] > 10) & (df["column2"] < 20))
# 排序
df_sorted = df.sort("column1")
# 分组
df_grouped = df.groupby("column1").sum()

4.3 高级操作

Polars还拥护一些高级操作，如合并、透视表等。以下是一个合并数据的示例：


# 假设有两个DataFrame：df1 和 df2
df_merged = df1.join(df2, on="column1", how="inner")

五、性能对比

以下是Polars与Pandas在处理同一数据集时的性能对比。请注意，以下于是仅供参考，实际性能大概会因数据集大小、硬件配置等因素而有所不同。


import pandas as pd
import time
# 创建大型数据集
data = {
    "column1": range(1000000),
    "column2": range(1000000, 2000000)
}
df_pandas = pd.DataFrame(data)
df_polars = pl.DataFrame(data)
# Pandas处理时间
start_time = time.time()
df_pandas_sorted = df_pandas.sort_values(by="column1")
pandas_time = time.time() - start_time
# Polars处理时间
start_time = time.time()
df_polars_sorted = df_polars.sort("column1")
polars_time = time.time() - start_time
print(f"Pandas处理时间：{pandas_time}秒")
print(f"Polars处理时间：{polars_time}秒")