首页 > Python资料 博客日记
【Python】进阶学习:pandas--groupby()用法详解
2024-03-24 12:00:05Python资料围观216次
📊【Python】进阶学习:pandas–groupby()用法详解
🌈 个人主页:高斯小哥
🔥 高质量专栏:Matplotlib之旅:零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程👈 希望得到您的订阅和支持~
💡 创作高质量博文(平均质量分92+),分享更多关于深度学习、PyTorch、Python领域的优质内容!(希望得到您的关注~)
🌵文章目录🌵
👋 欢迎来到Python进阶学习之旅!今天,我们将深入探讨pandas库中非常强大的groupby()
函数。groupby()
函数在数据分析和数据清洗中发挥着关键作用,能够帮助我们轻松地对数据进行分组、聚合和转换。
🤔 一、为什么需要groupby()?
在处理大量数据时,我们经常需要按照某个或多个特征对数据进行分组,以便更好地理解数据的结构和关系。例如,我们可能希望按照年份、地区或产品类别对数据进行分组,并对每个组进行聚合运算,如求和、平均值、最大值等。这时,groupby()
函数就显得非常有用。
🎯 二、groupby()的基本用法
首先,我们需要导入pandas库,并创建一个示例数据集。然后,我们可以使用groupby()
函数按照指定的列对数据进行分组。
import numpy as np
import pandas as pd
# 创建一个简单的DataFrame
data = {
'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
'C': np.random.randn(8),
'D': np.random.randn(8)
}
df = pd.DataFrame(data)
# 使用groupby按列'A'进行分组
grouped = df.groupby('A')
# 打印分组后的GroupBy对象
print(grouped)
输出:
<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002B2C070B8E0>
上述代码将按照列’A’的值对DataFrame进行分组,并返回一个GroupBy对象。我们可以进一步对这个对象进行聚合运算。
📈 三、聚合运算
GroupBy对象提供了多种聚合函数,如sum()
、mean()
、max()
等。我们可以使用这些函数对每个组进行聚合运算。
import numpy as np
import pandas as pd
# 创建一个简单的DataFrame
data = {
'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
'C': np.random.randn(8),
'D': np.random.randn(8)
}
df = pd.DataFrame(data)
# 使用groupby按列'A'进行分组
grouped = df.groupby('A')
# 打印分组后的对象
print(grouped)
# 计算每个组的平均值
mean_grouped = grouped.mean()
print(mean_grouped)
# 计算每个组的总和
sum_grouped = grouped.sum()
print(sum_grouped)
输出:
C D
A
bar 0.658173 -0.225388
foo 0.778100 -0.164148
C D
A
bar 1.97452 -0.676164
foo 3.89050 -0.820740
除了内置的聚合函数外,我们还可以使用agg()
函数应用自定义的聚合函数。例如,我们可以计算每个组的标准差:
import numpy as np
import pandas as pd
# 创建一个简单的DataFrame
data = {
'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
'C': np.random.randn(8),
'D': np.random.randn(8)
}
df = pd.DataFrame(data)
# 使用groupby按列'A'进行分组
grouped = df.groupby('A')
# 打印分组后的对象
print(grouped)
# 计算每个组的标准差
std_grouped = grouped.agg(np.std)
print(std_grouped)
输出:
<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002B2F480B880>
C D
A
bar 0.101229 0.274698
foo 0.996597 0.812362
🛠️ 四、高级用法与技巧
除了基本的分组和聚合操作外,groupby()
还提供了许多高级功能,如应用自定义函数、转换数据等。
🔧 应用自定义函数
我们可以使用apply()
方法应用自定义函数到每个组。例如,我们可以定义一个函数来计算每个组的最大值和最小值之差:
import numpy as np
import pandas as pd
# 创建一个简单的DataFrame
data = {
'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
'C': np.random.randn(8),
'D': np.random.randn(8)
}
df = pd.DataFrame(data)
# 使用groupby按列'A'进行分组
grouped = df.groupby('A')
# 打印分组后的对象
print(grouped)
# 定义一个自定义函数,计算每个组的最大值和最小值之差
def range_diff(group):
return group.max() - group.min()
# 使用apply()应用自定义函数
diff_grouped = grouped.apply(range_diff)
print(diff_grouped)
输出:
<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002ACBD83AA60>
C D
A
bar 2.497695 1.086924
foo 2.826518 2.063781
🔄 数据转换
groupby()
还提供了transform()
方法,用于将聚合运算的结果广播到原始数据的每一行。这在数据转换中非常有用。
import numpy as np
import pandas as pd
# 创建一个简单的DataFrame
data = {
'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
'C': np.random.randn(8),
'D': np.random.randn(8)
}
df = pd.DataFrame(data)
# 使用groupby按列'A'进行分组
grouped = df.groupby('A')
# 打印分组后的对象
print(grouped)
# 使用transform()方法将每个组的平均值广播到原始数据的每一行
mean_transformed = grouped['C'].transform('mean')
print(mean_transformed)
# 将转换后的平均值添加到原始DataFrame中
df['C_mean'] = mean_transformed
print(df)
输出:
<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000188A56DA8E0>
0 0.344876
1 -1.358760
2 0.344876
3 -1.358760
4 0.344876
5 -1.358760
6 0.344876
7 0.344876
Name: C, dtype: float64
A C D C_mean
0 foo 0.783914 -1.027288 0.344876
1 bar -2.072893 -0.972087 -1.358760
2 foo 0.035637 -0.315908 0.344876
3 bar -1.953068 0.409697 -1.358760
4 foo 0.576048 -0.258289 0.344876
5 bar -0.050318 -1.115734 -1.358760
6 foo 0.093456 0.106227 0.344876
7 foo 0.235322 1.365150 0.344876
🔍 过滤数据
除了聚合和转换外,我们还可以使用filter()
方法根据条件过滤出满足条件的组。
import numpy as np
import pandas as pd
# 创建一个简单的DataFrame
data = {
'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
'C': np.random.randn(8),
'D': np.random.randn(8)
}
df = pd.DataFrame(data)
# 使用groupby按列'A'进行分组
grouped = df.groupby('A')
# 打印分组后的对象
print(grouped)
# 使用filter()方法过滤出满足条件的组(例如,组的大小大于3)
filtered_groups = grouped.filter(lambda x: len(x) > 3)
print(filtered_groups)
输出:
<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000015ADE2FA940>
A C D
0 foo 1.967217 0.005976
2 foo 0.950149 0.098143
4 foo 0.568101 1.461587
6 foo -1.905337 -1.106591
7 foo -0.168686 0.692850
🛠️ 五、实际案例应用
最后,让我们通过一个实际案例来演示如何应用groupby()
函数进行数据分析和清洗。
假设我们有一个包含销售数据的DataFrame,其中包含日期、地区、产品名称、销售额等列。我们希望按地区和产品名称对数据进行分组,并计算每个组的总销售额。
import numpy as np
import pandas as pd
# 创建一个包含销售数据的DataFrame
sales_data = {
'date': pd.date_range(start='2023-01-01', periods=100),
'region': np.random.choice(['North', 'South', 'East', 'West'], size=100),
'product': np.random.choice(['Product A', 'Product B', 'Product C'], size=100),
'sales': np.random.rand(100) * 1000
}
df_sales = pd.DataFrame(sales_data)
# 按地区和产品名称对数据进行分组,并计算总销售额
grouped_sales = df_sales.groupby(['region', 'product'])['sales'].sum().reset_index()
# 打印分组后的销售额
print(grouped_sales)
输出:
region product sales
0 East Product A 2728.679432
1 East Product B 1847.966730
2 East Product C 4518.356763
3 North Product A 5882.374531
4 North Product B 5519.364196
5 North Product C 4229.953852
6 South Product A 5303.784425
7 South Product B 2321.080682
8 South Product C 4239.002167
9 West Product A 1689.650513
10 West Product B 4002.790867
11 West Product C 4894.553548
在这个案例中,我们首先创建了一个包含销售数据的DataFrame。然后,我们使用groupby()
函数按地区和产品名称对数据进行分组,并使用sum()
函数计算每个组的总销售额。最后,我们使用reset_index()
函数将结果转换为一个新的DataFrame,并打印出来。
🎉 六、总结
groupby()
函数是pandas库中一个非常强大的工具,它允许我们按照一个或多个特征对数据进行分组,并对每个组进行聚合、转换和过滤操作。通过熟练掌握groupby()
函数的用法,我们可以更高效地处理和分析大量数据,从而洞察数据的内在结构和关系。希望这篇博客能够帮助你更好地理解和应用groupby()
函数!
🤝 七、期待与你共同进步
🌱 亲爱的读者,非常感谢你每一次的停留和阅读!你的支持是我们前行的最大动力!🙏
🌐 在这茫茫网海中,有你的关注,我们深感荣幸。你的每一次点赞👍、收藏🌟、评论💬和关注💖,都像是明灯一样照亮我们前行的道路,给予我们无比的鼓舞和力量。🌟
📚 我们会继续努力,为你呈现更多精彩和有深度的内容。同时,我们非常欢迎你在评论区留下你的宝贵意见和建议,让我们共同进步,共同成长!💬
💪 无论你在编程的道路上遇到什么困难,都希望你能坚持下去,因为每一次的挫折都是通往成功的必经之路。我们期待与你一起书写编程的精彩篇章! 🎉
🌈 最后,再次感谢你的厚爱与支持!愿你在编程的道路上越走越远,收获满满的成就和喜悦!祝你编程愉快!🎉
标签:
相关文章
最新发布
- 【Python】selenium安装+Microsoft Edge驱动器下载配置流程
- Python 中自动打开网页并点击[自动化脚本],Selenium
- Anaconda基础使用
- 【Python】成功解决 TypeError: ‘<‘ not supported between instances of ‘str’ and ‘int’
- manim边学边做--三维的点和线
- CPython是最常用的Python解释器之一,也是Python官方实现。它是用C语言编写的,旨在提供一个高效且易于使用的Python解释器。
- Anaconda安装配置Jupyter(2024最新版)
- Python中读取Excel最快的几种方法!
- Python某城市美食商家爬虫数据可视化分析和推荐查询系统毕业设计论文开题报告
- 如何使用 Python 批量检测和转换 JSONL 文件编码为 UTF-8
点击排行
- 版本匹配指南:Numpy版本和Python版本的对应关系
- 版本匹配指南:PyTorch版本、torchvision 版本和Python版本的对应关系
- Python 可视化 web 神器:streamlit、Gradio、dash、nicegui;低代码 Python Web 框架:PyWebIO
- 相关性分析——Pearson相关系数+热力图(附data和Python完整代码)
- Python与PyTorch的版本对应
- Anaconda版本和Python版本对应关系(持续更新...)
- Python pyinstaller打包exe最完整教程
- Could not build wheels for llama-cpp-python, which is required to install pyproject.toml-based proj