Python酷库之旅-第三方库Pandas(040)
原创
Python酷库之旅——第三方库Pandas(040)
Pandas是一个强势的Python数据分析工具库,它提供了迅捷、灵活和表达能力强的数据结构,旨在使“关系”或“标签”数据的操作既易懂又直观。在数据分析、数据清洗和数据处理等方面,Pandas表现出极高的快速和易用性。
一、Pandas的数据结构
Pandas核心有两种数据结构:Series和DataFrame。
1. Series
Series是一个一维的标签化数组,可以存储任何数据类型(整数、字符串、浮点数等)。它既有索引也有值。
class pandas.Series(data=None, index=None, dtype=None, name=None,
copy=False, fastpath=False)
2. DataFrame
DataFrame是一个二维的标签化数据结构,可以看作是一个Series的容器。它有行索引和列索引,可以被看作是一个有序的字典,存储了列数据。
class pandas.DataFrame(data=None, index=None, columns=None, dtype=None,
copy=False)
二、Pandas的基本操作
1. 创建DataFrame
import pandas as pd
# 创建一个易懂的DataFrame
data = {'name': ['Tom', 'Jerry', 'Mickey'],
'age': [20, 21, 22],
'city': ['New York', 'Los Angeles', 'Chicago']}
df = pd.DataFrame(data)
print(df)
2. 查看DataFrame数据
# 查看前几行数据
print(df.head())
# 查看数据概览
print(df.info())
3. 数据筛选与查询
# 结合列名筛选数据
print(df['name'])
# 使用loc进行行和列的筛选
print(df.loc[df['age'] > 20])
# 使用iloc进行行和列的筛选(基于整数索引)
print(df.iloc[1:3, 0:2])
三、结语
Pandas是一个非常强势的数据分析工具库,这里仅介绍了它的冰山一角。在实际应用中,Pandas还有更多高级功能和技巧等待我们去探索。愿望这篇文章能帮助您对Pandas有一个初步的了解。