首页 > Python资料 博客日记
掌握pandas cut函数,一键实现数据分类
2024-03-06 14:00:03Python资料围观194次
pandas
中的cut
函数可将一维数据按照给定的区间进行分组,并为每个值分配对应的标签。
其主要功能是将连续的数值数据转化为离散的分组数据,方便进行分析和统计。
1. 数据准备
下面的示例中使用的数据采集自王者荣耀比赛的统计数据。
数据下载地址:https://databook.top/。
导入数据:
# 2023年世冠比赛选手的数据
fp = r"D:\data\player-2023世冠.csv"
df = pd.read_csv(fp)
# 这里只保留了下面示例中需要的列
df = df.loc[:, ["排名", "选手", "场均经济", "场均伤害"]]
df
2. 使用示例
每个选手的“场均经济”和“场均伤害”是连续分布的数据,为了整体了解所有选手的情况,
可以使用下面的方法将“场均经济”和“场均伤害”分类。
2.1. 查看数据分布
首先,可以使用直方图的方式看看数据连续分布的情况:
import matplotlib.pyplot as plt
df.loc[:, ["场均经济", "场均伤害"]].hist()
plt.show()
图中的横轴是“经济”和“伤害”的数值,纵轴是选手的数量。
2.2. 定制分布参数
从默认的直方图中可以看出大部分选手的“场均经济”和“场均伤害”大致在什么范围,
不过,为了更精细的分析,我们可以进一步定义自己的分类范围,看看各个分类范围内的选手数量情况。
比如,我们将“场均经济”分为3块,分别为低(0~5000
),中(5000~10000
),高(10000~20000
)。
同样,对于“场均伤害”,也分为3块,分别为低(0~50000
),中(50000~100000
),高(100000~200000
)。
bins1 = [0, 5000, 10000, 20000]
bins2 = [0, 50000, 100000, 200000]
labels = ["低", "中", "高"]
s1 = "场均经济"
s2 = "场均伤害"
df[f"{s1}-分类"] = pd.cut(df[s1], bins=bins1, labels=labels)
df[f"{s2}-分类"] = pd.cut(df[s2], bins=bins2, labels=labels)
df
分类之后,选手被分到3个类别之中,然后再绘制直方图。
df.loc[:, f"{s1}-分类"].hist()
plt.title(f"{s1}-分类")
plt.show()
从这个图看出,大部分选手都是“中”,“高”的经济,说明职业选手很重视英雄发育。
df.loc[:, f"{s2}-分类"].hist()
plt.title(f"{s2}-分类")
plt.show()
从图中可以看出,打出高伤害的选手比例并不高,可能职业比赛中,更多的是团队作战。
3. 总结
总的来说,cut
函数的主要作用是将输入的数值数据(可以是一维数组、Series或DataFrame的列)按照指定的间隔或自定义的区间边界进行划分,并为每个划分后的区间分配一个标签。
这样,原始的连续数据就被转化为了离散的分组数据,每个数据点都被分配到了一个特定的组中,从而方便后续进行分析和统计。
标签:
相关文章
最新发布
- 光流法结合深度学习神经网络的原理及应用(完整代码都有Python opencv)
- Python 图像处理进阶:特征提取与图像分类
- 大数据可视化分析-基于python的电影数据分析及可视化系统_9532dr50
- 【Python】入门(运算、输出、数据类型)
- 【Python】第一弹---解锁编程新世界:深入理解计算机基础与Python入门指南
- 华为OD机试E卷 --第k个排列 --24年OD统一考试(Java & JS & Python & C & C++)
- Python已安装包在import时报错未找到的解决方法
- 【Python】自动化神器PyAutoGUI —告别手动操作,一键模拟鼠标键盘,玩转微信及各种软件自动化
- Pycharm连接SQL Sever(详细教程)
- Python编程练习题及解析(49题)
点击排行
- 版本匹配指南:Numpy版本和Python版本的对应关系
- 版本匹配指南:PyTorch版本、torchvision 版本和Python版本的对应关系
- Python 可视化 web 神器:streamlit、Gradio、dash、nicegui;低代码 Python Web 框架:PyWebIO
- 相关性分析——Pearson相关系数+热力图(附data和Python完整代码)
- Anaconda版本和Python版本对应关系(持续更新...)
- Python与PyTorch的版本对应
- Windows上安装 Python 环境并配置环境变量 (超详细教程)
- Python pyinstaller打包exe最完整教程