首页 > Python资料 博客日记
利用 Selenium 和 Python 实现网页新闻链接抓取
2024-07-27 22:00:05Python资料围观96次
在网络数据分析和信息检索中,爬虫是一项非常重要的技术。爬虫可以自动化地从网页中提取信息,极大地提升数据收集的效率。本文将以一个具体的代码实例,讲解如何使用 Selenium 库进行网页新闻链接的抓取。
前期准备
在开始之前,需要确保系统已经安装了 Python 以及 Selenium 库。可以通过以下命令进行安装:
pip install selenium
此外,还需要下载适用于浏览器的驱动程序。本文示例中使用的是 Firefox 驱动程序。如果使用的是 Chrome 浏览器,需要下载相应的 Chrome 驱动程序。下载完成后,将驱动程序放在系统的 PATH 路径中。
代码实现
以下是实现从网页中抓取新闻链接的完整代码:
from selenium import webdriver
import time
# 此处下载的是Firefox驱动,所以用Firefox()函数打开浏览器,
# 若下载的是Chrome驱动,则利用Chrome()函数打开浏览器
driver = webdriver.Firefox()
# 将提取的新闻链接保存在listhref列表中
listhref = []
url = "https://www.163.com/search?keyword=中国芯片"
# 通过分析网页结构可知,网页的所有新闻都存放在”class”=”keyword_list”的节点下,
# 右键复制该节点XPath路径,为”/html/body/div[2]/div[2]/div[1]/div[2]”,
# 再对某一个新闻进行分析,得到新闻链接存放的节点a的XPath路径,
# 此时不用添加标号,就可以查询到所有满足条件的新闻链接
xpath_name = "/html/body/div[2]/div[2]/div[1]/div[2]/div/h3/a"
# 根据网页链接打开浏览器
driver.get(url=url)
# 这里设计了两个临时变量,分别保存现在滚动条距离页面顶层的高度和上一次滚动条的高度,
# 用来判断是否滚动条已经到达页面底部,无法继续下滑
nowTop = 0
tempTop = -1
# 不断向下滚动滚动条并且保存新闻链接
while True:
# 保存网页链接存取在的位置节点
name = driver.find_elements_by_xpath(xpath_name)
# 遍历各个节点
for j in range(len(name)):
# 判断当前下标有没有文本
if name[j].text:
# 有则添加进列表,通过get_attribute函数获得’href’属性的值,获得新闻链接
listhref.append(name[j].get_attribute('href'))
else:
pass
# 执行下拉滚动操作
driver.execute_script("window.scrollBy(0,1000)")
# 睡眠让滚动条反应一下
time.sleep(5)
# 获得滚动条距离顶部的距离
nowTop = driver.execute_script("return document.documentElement.scrollTop || window.pageYOffset || document.body.scrollTop;")
# 如果滚动条距离顶部的距离不再变化,意味着已经到达页面底部,可以退出循环
if nowTop == tempTop:
break
tempTop = nowTop
# 完成后关闭浏览器
driver.close()
# 检查新闻链接是否保存成功
print(listhref)
代码讲解
1. 初始化浏览器驱动
首先,通过 webdriver.Firefox()
初始化 Firefox 浏览器驱动。如果使用 Chrome 浏览器,可以替换为 webdriver.Chrome()
。
2. 设置目标 URL 和 XPath
目标 URL 设置为网易新闻的搜索页面,通过关键词“中国芯片”进行搜索。通过分析网页结构,确定新闻链接的 XPath 路径。
3. 打开浏览器并加载网页
使用 driver.get(url)
方法打开目标网页。
4. 滚动页面并提取链接
为了提取所有的新闻链接,需要不断向下滚动页面。通过 driver.execute_script("window.scrollBy(0,1000)")
实现页面滚动,并通过 time.sleep(5)
暂停 5 秒,等待页面加载新内容。
5. 判断是否到达页面底部
利用两个变量 nowTop
和 tempTop
判断是否到达页面底部。如果滚动条距离顶部的高度不再变化,说明已经到达页面底部,此时退出循环。
6. 关闭浏览器并输出结果
循环结束后,关闭浏览器,并输出抓取到的新闻链接列表 listhref
。
注意事项
- 浏览器驱动:确保浏览器驱动与浏览器版本匹配,并将驱动程序放在系统的 PATH 路径中。
- 页面加载时间:根据网络环境和页面复杂度,适当调整
time.sleep()
的时间。 - 反爬虫机制:一些网站可能有反爬虫机制,如频繁访问可能导致 IP 被封禁。可以通过设置代理、调整访问频率等方式进行规避。
通过本文的实例,可以帮助读者了解如何使用 Selenium 库进行网页数据抓取,并应用于实际的爬虫项目中。希望这篇文章对你有所帮助!
标签:
相关文章
最新发布
- 【Python】selenium安装+Microsoft Edge驱动器下载配置流程
- Python 中自动打开网页并点击[自动化脚本],Selenium
- Anaconda基础使用
- 【Python】成功解决 TypeError: ‘<‘ not supported between instances of ‘str’ and ‘int’
- manim边学边做--三维的点和线
- CPython是最常用的Python解释器之一,也是Python官方实现。它是用C语言编写的,旨在提供一个高效且易于使用的Python解释器。
- Anaconda安装配置Jupyter(2024最新版)
- Python中读取Excel最快的几种方法!
- Python某城市美食商家爬虫数据可视化分析和推荐查询系统毕业设计论文开题报告
- 如何使用 Python 批量检测和转换 JSONL 文件编码为 UTF-8
点击排行
- 版本匹配指南:Numpy版本和Python版本的对应关系
- 版本匹配指南:PyTorch版本、torchvision 版本和Python版本的对应关系
- Python 可视化 web 神器:streamlit、Gradio、dash、nicegui;低代码 Python Web 框架:PyWebIO
- 相关性分析——Pearson相关系数+热力图(附data和Python完整代码)
- Anaconda版本和Python版本对应关系(持续更新...)
- Python与PyTorch的版本对应
- Windows上安装 Python 环境并配置环境变量 (超详细教程)
- Python pyinstaller打包exe最完整教程