首页 > Python资料 博客日记
Python爬虫实战:图片爬取与保存
2024-03-03 01:00:05Python资料围观128次
Python资料网推荐Python爬虫实战:图片爬取与保存这篇文章给大家,欢迎收藏Python资料网享受知识的乐趣
引言:
在本文中,我们将学习如何使用Python创建一个简单的图片爬虫。我们将利用
requests
库来发送HTTP请求,BeautifulSoup
库来解析HTML页面,以及os
和shutil
库来下载和保存图片。通过这个教程,你将学会如何爬取网页上的图片并保存到本地。
目录
在开始之前,请确保你已经安装了Python,并且安装了以下库:
一、准备工作
在开始之前,请确保你已经安装了Python,并且安装了以下库:
requests
:用于发送HTTP请求beautifulsoup4
:用于解析HTML页面
你可以使用以下命令来安装这些库:
pip install requests beautifulsoup4
二、代码实现
import os
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
from urllib.request import urlretrieve
def download_images(url, save_dir):
"""
下载指定网页上的所有图片并保存到本地文件夹
:param url: 目标网页的URL
:param save_dir: 图片保存的目录
"""
# 创建保存图片的目录
if not os.path.exists(save_dir):
os.makedirs(save_dir)
# 发送HTTP请求
response = requests.get(url)
response.raise_for_status() # 如果请求失败,抛出异常
# 使用BeautifulSoup解析页面
soup = BeautifulSoup(response.text, 'html.parser')
# 查找所有的图片链接
image_links = soup.find_all('img')
# 下载并保存图片
for img in image_links:
img_url = img.get('src')
# 如果图片链接是相对路径,则将其转换为绝对路径
if not img_url.startswith(('http://', 'https://')):
img_url = urljoin(url, img_url)
# 下载图片
img_name = os.path.join(save_dir, img_url.split('/')[-1])
urlretrieve(img_url, img_name)
print(f"Downloaded: {img_name}")
# 使用示例
url = "https://example.com" # 替换为你要爬取的网页的URL
save_dir = "images" # 图片保存的目录
download_images(url, save_dir)
三、代码解析
- 导入库:首先,我们导入了所需的库,包括
os
、requests
、BeautifulSoup
、urllib.parse
和urllib.request
。- 定义函数:我们定义了一个名为
download_images
的函数,它接受两个参数:url
(目标网页的URL)和save_dir
(图片保存的目录)。- 创建保存目录:如果指定的保存目录不存在,我们将创建它。
- 发送HTTP请求:使用
requests.get
方法发送HTTP请求,并使用response.raise_for_status
检查请求是否成功。- 解析页面:使用
BeautifulSoup
解析HTML页面,并查找所有的<img>
标签,以获取图片链接。- 下载并保存图片:遍历每个图片链接,将其转换为绝对路径(如果需要),并使用
urlretrieve
方法下载图片然后,将图片保存到指定的目录,并打印出下载的文件名。- 使用示例:最后,我们提供了一个使用示例,包括目标网页的URL和图片保存的目录。
四、注意事项
- 在使用爬虫时,请确保遵守目标网站的
robots.txt
文件和使用条款,并尊重他人的版权和隐私。 - 不要对网站造成过大的压力或进行恶意爬取。
- 可以根据需要进一步扩展此代码,例如增加错误处理、添加代理支持、限制并发请求数、使用异步IO等。
通过本文的学习,你已经掌握了如何使用Python创建一个简单的图片爬虫。你可以根据自己的需求进一步扩展和优化这个爬虫。记得在使用爬虫时要遵守相关规定和法律法规,尊重他人的权益。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:jacktools123@163.com进行投诉反馈,一经查实,立即删除!
标签:
相关文章
最新发布
- 【Python系列】SQLAlchemy 基本介绍
- 【Python】selenium 的EC.presence_of_element_located 和 EC.element_to_be_clickable 的区别
- 从零到一!超详细Pycharm安装教程(图解+详细步骤)
- python json jsonl 的用法
- 【Python篇】深度探索NumPy(下篇):从科学计算到机器学习的高效实战技巧
- boto3:Python连接S3对象存储并进行文件操作(上传、下载、删除)
- 全网最适合入门的面向对象编程教程:50 Python函数方法与接口-接口和抽象基类
- Python pycryptodome类库使用学习总结
- import torch 报错:WinError 126
- 如何在Java中实现邮件发送功能?
点击排行
- 版本匹配指南:Numpy版本和Python版本的对应关系
- Python 可视化 web 神器:streamlit、Gradio、dash、nicegui;低代码 Python Web 框架:PyWebIO
- 版本匹配指南:PyTorch版本、torchvision 版本和Python版本的对应关系
- 相关性分析——Pearson相关系数+热力图(附data和Python完整代码)
- Could not build wheels for llama-cpp-python, which is required to install pyproject.toml-based proj
- Python pyinstaller打包exe最完整教程
- Anaconda版本和Python版本对应关系(持续更新...)
- Python与PyTorch的版本对应