首页 > Python资料 博客日记
python-快速上手爬虫
2024-07-30 08:00:05Python资料围观97次
这篇文章介绍了python-快速上手爬虫,分享给大家做个参考,收藏Python资料网收获更多编程知识
目录
前言
道路千万条,安全第一条
爬虫不谨慎,亲人两行泪
一点小小的准备工作
对pip进行换源:win+r 打开命令提示符,输入cmd ,回车,将此串代码复制粘贴,将pip换成清华大学的镜像源
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
换好了之后:再次win+r 打开命令提示符,输入cmd ,回车,输入下列代码,安装requests库用以爬虫
pip install requests
直接上手爬取网页
爬虫的本质就是模拟浏览器上网的过程
记住爬虫的四个步骤,UA伪装-->获取网站url-->发送请求-->获取数据并保存
import requests
if __name__ == '__main__':
# UA伪装
head = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0"
}
# 获取网址
url = "https://baike.baidu.com/item/%E5%91%A8%E6%9D%B0%E4%BC%A6/129156"
# 发送请求
response = requests.get(url, headers=head)
# 获取数据并保存
with open("jay.html", "w", encoding="utf-8") as fp:
fp.write(response.text)
print(response.status_code) # 输出200 则为正常
示例代码为爬取周杰伦百度百科的界面,最后打印是200,即为成功。
1.获取UA伪装
- 右击页面,选择"检查";或者按f12,进入检查界面。
- 再点击"网络",点击左上角的符号清空请求,再按 ctrl+r 刷新网页。
- 你会看到有许多请求被加载出来,往上翻找到第一个,复制右下角的User-Agent:后的内容进行粘贴即可。
2.获取url
步骤与UA差不多
粘贴完UA,再复制请求URL:后面的内容进行粘贴即可
3.发送请求
使用requests.get()方法,传入参数url,headers=head
大部分爬取时的请求方法都是get,再用response保存获取到的内容
4.获取响应数据进行解析并保存
使用.text属性获取服务器返回的文本内容,并进行打印。
再用.status_code属性检查HTTP请求的响应状态码,打印之后若是200即为成功。
有时会有其他状态码的显示
# 状态码解释
2** 成功,操作被成功接收并处理
3** 重定向,需要进一步的操作以完成请求
4** 客户端错误,请求包含语法错误或无法完成请求
5** 服务器错误,服务器在处理请求的过程中发生了错误
总结
以上是最基础的爬虫应用,只是爬取网页并没有什么太大的作用,以后还会有爬取网页的图片和文字信息等。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:jacktools123@163.com进行投诉反馈,一经查实,立即删除!
标签:
相关文章
最新发布
- 光流法结合深度学习神经网络的原理及应用(完整代码都有Python opencv)
- Python 图像处理进阶:特征提取与图像分类
- 大数据可视化分析-基于python的电影数据分析及可视化系统_9532dr50
- 【Python】入门(运算、输出、数据类型)
- 【Python】第一弹---解锁编程新世界:深入理解计算机基础与Python入门指南
- 华为OD机试E卷 --第k个排列 --24年OD统一考试(Java & JS & Python & C & C++)
- Python已安装包在import时报错未找到的解决方法
- 【Python】自动化神器PyAutoGUI —告别手动操作,一键模拟鼠标键盘,玩转微信及各种软件自动化
- Pycharm连接SQL Sever(详细教程)
- Python编程练习题及解析(49题)
点击排行
- 版本匹配指南:Numpy版本和Python版本的对应关系
- 版本匹配指南:PyTorch版本、torchvision 版本和Python版本的对应关系
- Python 可视化 web 神器:streamlit、Gradio、dash、nicegui;低代码 Python Web 框架:PyWebIO
- 相关性分析——Pearson相关系数+热力图(附data和Python完整代码)
- Anaconda版本和Python版本对应关系(持续更新...)
- Python与PyTorch的版本对应
- Windows上安装 Python 环境并配置环境变量 (超详细教程)
- Python pyinstaller打包exe最完整教程