首页 > Python资料 博客日记
【Python】进阶学习:pandas--describe()函数的使用介绍
2024-03-12 17:00:05Python资料围观321次
🐍【Python】进阶学习:pandas——describe()
函数的使用介绍
🌈 个人主页:高斯小哥
🔥 高质量专栏:Matplotlib之旅:零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程👈 希望得到您的订阅和支持~
💡 创作高质量博文(平均质量分92+),分享更多关于深度学习、PyTorch、Python领域的优质内容!(希望得到您的关注~)
🌵文章目录🌵
📊 一、初识describe()
函数
在数据分析和处理的过程中,我们经常需要了解数据的基本统计信息,如均值、标准差、最小值、最大值等。pandas库中的describe()
函数为我们提供了这样的功能,它可以快速生成数据集的描述性统计信息。
📈 二、describe()
函数的基本用法
describe()
函数是pandas库中DataFrame和Series对象的一个方法,它默认返回以下统计信息:
count
:非空值的数量mean
:平均值std
:标准差min
:最小值25%
:第一四分位数(Q1)50%
:第二四分位数(中位数,Q2)75%
:第三四分位数(Q3)max
:最大值
使用示例:
import pandas as pd
# 创建一个简单的DataFrame
data = {
'A': [1, 2, 3, 4, 5],
'B': [5, 4, 3, 2, 1],
'C': [10, 20, 30, 40, 50]
}
df = pd.DataFrame(data)
# 使用describe()函数
description = df.describe()
print(description)
输出:
A B C
count 5.000000 5.000000 5.000000
mean 3.000000 3.000000 30.000000
std 1.581139 1.581139 15.811388
min 1.000000 1.000000 10.000000
25% 2.000000 2.000000 20.000000
50% 3.000000 3.000000 30.000000
75% 4.000000 4.000000 40.000000
max 5.000000 5.000000 50.000000
🔍 三、定制describe()
函数的输出
describe()
函数提供了多个参数,允许我们定制输出的统计信息。
percentiles
:指定要包括的其他百分位数,例如percentiles=[.25, .5, .75]
将返回第一、第二和第三四分位数。include
:指定要包括的数据类型,默认为'all'
,可以设置为'all'
,'nums'
, 或'object'
。exclude
:指定要排除的数据类型。
使用示例:
import pandas as pd
# 创建一个简单的DataFrame
data = {
'A': [1, 2, 3, 4, 5],
'B': [5, 4, 3, 2, 1],
'C': [10, 20, 30, 40, 50]
}
df = pd.DataFrame(data)
# 使用describe()函数定制输出
custom_description = df.describe(percentiles=[.30, .60, .90])
print(custom_description)
输出:
A B C
count 5.000000 5.000000 5.000000
mean 3.000000 3.000000 30.000000
std 1.581139 1.581139 15.811388
min 1.000000 1.000000 10.000000
30% 2.200000 2.200000 22.000000
50% 3.000000 3.000000 30.000000
60% 3.400000 3.400000 34.000000
90% 4.600000 4.600000 46.000000
max 5.000000 5.000000 50.000000
📊 四、describe()
函数与数据可视化
describe()
函数输出的统计信息经常与数据可视化结合使用,以更直观地了解数据的分布。例如,我们可以使用matplotlib库来绘制箱线图(boxplot)。
使用示例:
import pandas as pd
from matplotlib import pyplot as plt
# 创建一个简单的DataFrame
data = {
'A': [1, 2, 3, 4, 5],
'B': [5, 4, 3, 2, 1],
'C': [10, 20, 30, 40, 50]
}
df = pd.DataFrame(data)
# 使用describe()函数定制输出
custom_description = df.describe(percentiles=[.30, .60, .90])
print(custom_description)
# 绘制箱线图
df.boxplot()
plt.show()
效果展示:
💡 五、深入理解统计指标
了解describe()
函数输出的统计指标对于正确解读数据至关重要。例如,标准差可以告诉我们数据集的离散程度,中位数则可以告诉我们数据集的中心趋势,而不受极端值的影响。
📚 六、总结与进阶学习
describe()
函数是pandas库中非常实用的一个函数,它可以帮助我们快速了解数据集的基本统计信息。通过定制输出、结合数据可视化以及深入理解统计指标,我们可以更好地分析和处理数据。在进阶学习中,你还可以探索其他与describe()
函数相关的统计方法和可视化工具,以提高你的数据处理和分析能力。
希望这篇博客能帮助你更好地理解和使用pandas中的describe()
函数!🚀📈🔍
🤝 七、期待与你共同进步
🌱 亲爱的读者,非常感谢你每一次的停留和阅读!你的支持是我们前行的最大动力!🙏
🌐 在这茫茫网海中,有你的关注,我们深感荣幸。你的每一次点赞👍、收藏🌟、评论💬和关注💖,都像是明灯一样照亮我们前行的道路,给予我们无比的鼓舞和力量。🌟
📚 我们会继续努力,为你呈现更多精彩和有深度的内容。同时,我们非常欢迎你在评论区留下你的宝贵意见和建议,让我们共同进步,共同成长!💬
💪 无论你在编程的道路上遇到什么困难,都希望你能坚持下去,因为每一次的挫折都是通往成功的必经之路。我们期待与你一起书写编程的精彩篇章! 🎉
🌈 最后,再次感谢你的厚爱与支持!愿你在编程的道路上越走越远,收获满满的成就和喜悦!祝你编程愉快!🎉
标签:
相关文章
最新发布
- 【Python】selenium安装+Microsoft Edge驱动器下载配置流程
- Python 中自动打开网页并点击[自动化脚本],Selenium
- Anaconda基础使用
- 【Python】成功解决 TypeError: ‘<‘ not supported between instances of ‘str’ and ‘int’
- manim边学边做--三维的点和线
- CPython是最常用的Python解释器之一,也是Python官方实现。它是用C语言编写的,旨在提供一个高效且易于使用的Python解释器。
- Anaconda安装配置Jupyter(2024最新版)
- Python中读取Excel最快的几种方法!
- Python某城市美食商家爬虫数据可视化分析和推荐查询系统毕业设计论文开题报告
- 如何使用 Python 批量检测和转换 JSONL 文件编码为 UTF-8
点击排行
- 版本匹配指南:Numpy版本和Python版本的对应关系
- 版本匹配指南:PyTorch版本、torchvision 版本和Python版本的对应关系
- Python 可视化 web 神器:streamlit、Gradio、dash、nicegui;低代码 Python Web 框架:PyWebIO
- 相关性分析——Pearson相关系数+热力图(附data和Python完整代码)
- Python与PyTorch的版本对应
- Anaconda版本和Python版本对应关系(持续更新...)
- Python pyinstaller打包exe最完整教程
- Could not build wheels for llama-cpp-python, which is required to install pyproject.toml-based proj