首页 > Python资料博客日记

【python】python二手房数据抓取分析可视化（源码）【独一无二】

2024-06-29 15:00:04Python资料围观201次

Python资料网推荐【python】python二手房数据抓取分析可视化（源码）【独一无二】这篇文章给大家，欢迎收藏Python资料网享受知识的乐趣

👉博__主👈：米码收割机
👉技__能👈：C++/Python语言
👉公众号👈：测试开发自动化【获取源码+商业合作】
👉荣__誉👈：阿里云博客专家博主、51CTO技术博主
👉专__注👈：专注主流机器人、人工智能等相关领域的开发、测试技术。

python二手房数据抓取分析可视化（源码）

目录

python二手房数据抓取分析可视化（源码）
一、功能描述
二、数据抓取展示
三、数据可视化分析
部分代码展示

一、功能描述

代码是一个爬虫程序，旨在抓取链家网站 上的二手房数据，并进行数据处理和可视化展示。

爬取数据：使用requests库向链家网站发送HTTP请求，获取网页的HTML内容，然后使用lxml库解析HTML，提取出房屋的标题、价格、地段、面积和户型等信息。
数据存储：将爬取的房屋数据存储到CSV文件中，方便后续的数据处理和分析。
数据清洗：对爬取的数据进行清洗，去除空格行和不规范的数据，并将清洗后的数据写回CSV文件。
数据统计与可视化：
- 价格区间统计柱状图：将房屋价格分组到不同的价格区间，并统计每个价格区间的房屋数量，然后使用matplotlib库绘制柱状图进行可视化展示。
- 面积筛选：筛选出面积大于100平方米的房屋，并将结果保存到新的CSV文件中。
- 区域房屋数量统计：统计各个区域的房屋数量，并使用柱状图和饼图进行可视化展示，以便比较各个区域的房屋数量占比。

通过这些功能，用户可以快速获取链家网站上的二手房数据，并进行数据分析和可视化，帮助他们更好地了解房屋市场的情况和趋势。

👇👇👇 关注公众号，回复 “链家爬虫” 获取源码👇👇👇

二、数据抓取展示

存储内容如下：

👇👇👇 关注公众号，回复 “链家爬虫” 获取源码👇👇👇

三、数据可视化分析

价格区间分析

👇👇👇 关注公众号，回复 “链家爬虫” 获取源码👇👇👇

各区域房屋数量对比分析

各区房屋数量占比

👇👇👇 关注公众号，回复 “链家爬虫” 获取源码👇👇👇

部分代码展示

import requests
import matplotlib.pyplot as plt
import pandas as pd

plt.rcParams['font.sans-serif'] = ['SimHei']

def write_csv(csv_file_path):
    with open('data.csv', 'a+', newline='') as csvfile:
        csv_writer = csv.writer(csvfile)
        csv_writer.writerow(csv_file_path)



# 爬虫部分代码（略...）👇👇👇 关注公众号，回复 “链家爬虫” 获取源码👇👇👇
# 爬虫部分代码（略...）👇👇👇 关注公众号，回复 “链家爬虫” 获取源码👇👇👇


# 读取数据
csv_file_path = 'new_data.csv'
df = pd.read_csv(csv_file_path, encoding='gbk')

# 数据清洗部分代码（略...） 👇👇👇 关注公众号，回复 “链家爬虫” 获取源码👇👇👇
# 数据清洗部分代码（略...） 👇👇👇 关注公众号，回复 “链家爬虫” 获取源码👇👇👇


# 定义价格区间
price_bins = [0, 1000, 2000, 3000, 4000, 5000, math.inf]
price_labels = ['0-1000', '1001-2000', '2001-3000', '3001-4000', '4001-5000', '5001+']

# 将价格分组到价格区间
df['Price Range'] = pd.cut(df['价格'], bins=price_bins, labels=price_labels, right=False)

# 统计每个价格区间的数量
price_counts = df['Price Range'].value_counts().sort_index()

# 绘制柱状图
plt.bar(price_counts.index, price_counts.values, color='blue')
plt.xlabel('价格区间（万元）')
plt.ylabel('数量')
plt.title('价格区间统计柱状图')
plt.show()


# 面积筛选
# 读取CSV文件
csv_file_path = 'new_data.csv'
df = pd.read_csv(csv_file_path, encoding='gbk')


# 将'面积'列转换为数值型，忽略无法转换的值
df['面积'] = pd.to_numeric(df['面积'], errors='coerce')

# 筛选出面积大于100的房子
filtered_df = df[df['面积'] > 100]
print(filtered_df)
# 保存结果到area100.csv
filtered_df.to_csv('area100.csv')

print("已成功保存面积大于100的房子到 area100.csv 文件。")


# 占比统计
csv_file_path = 'new_data.csv'
df = pd.read_csv(csv_file_path, encoding='gbk')


# 区域名称
areas = ["雁塔", "碑林", "长安", "未央", "新城区", "灞桥"]

# 计算每个区域的房屋数量
counts = {area: 0 for area in areas}
for index, row in df.iterrows():
    for area in areas:
        if area in row['地段']:
            counts[area] += 1
            break  # 假设每个记录只属于一个区域

# 柱状图
plt.figure(figsize=(10, 6))
# 略...
plt.xlabel('区域')
plt.ylabel('房屋数量')
plt.title('各区域房屋数量对比')
plt.xticks(rotation=45)  # 旋转x轴标签，以便更清楚地显示
plt.show()

# 饼图
plt.figure(figsize=(8, 8))
# 略...
plt.title('各区域房屋数量占比')
plt.show()

👇👇👇 关注公众号，回复 “链家爬虫” 获取源码👇👇👇

标签：

上一篇：【华为OD机试B卷】服务器广播、需要广播的服务器数量（C++/Java/Python）
下一篇：day32-Django3.2（一）

点击排行

本站推荐

标签云

Python高手进阶指南

首页 > Python资料博客日记

【python】python二手房数据抓取分析可视化（源码）【独一无二】

python二手房数据抓取分析可视化（源码）

目录

一、功能描述

二、数据抓取展示

三、数据可视化分析

部分代码展示

相关文章

最新发布

点击排行

本站推荐

标签云

首页 > Python资料 博客日记

【python】python二手房数据抓取分析可视化（源码）【独一无二】

python二手房数据抓取分析可视化（源码）

目录

一、功能描述

二、数据抓取展示

三、数据可视化分析

部分代码展示

相关文章

最新发布

点击排行

本站推荐

标签云

首页 > Python资料博客日记