首页 > Python资料 博客日记
Python 查找PDF中的指定文本并高亮显示
2024-03-18 16:00:03Python资料围观184次
文章Python 查找PDF中的指定文本并高亮显示分享给大家,欢迎收藏Python资料网,专注分享技术知识
在处理大量PDF文档时,有时我们需要快速找到特定的文本信息。本文将提供以下三个Python示例来帮助你在PDF文件中快速查找并高亮指定的文本。
- 查找并高亮PDF中所有的指定文本
- 查找并高亮PDF某个区域内的指定文本
- 使用正则表达式搜索指定文本并高亮
本文将用到国产第三方库 - Spire.PDF for Python,该库提供 PdfPageBase.FindText() 方法可用于查找PDF中的特定文本,然后再使用 PdfTextFind.ApplyHighLight() 方法为匹配到的文本设置指定的高亮颜色以突出显示。
在运行接下来提供的示例代码之前,先通过pip安装Spire.PDF for Python库:
pip install Spire.PDF
Python 查找并高亮PDF中所有的指定文本
步骤:
- 加载PDF文档
- 遍历其中的页面
- 查找所有指定的文本
- 遍历所有查找到的文本并设置高亮颜色
- 保存文档并关闭
代码:
from spire.pdf import * from spire.pdf.common import* # 加载PDF文档 pdf = PdfDocument() pdf.LoadFromFile("南极洲.pdf") # 遍历PDF中所有页面 for i in range(pdf.Pages.Count): page = pdf.Pages.get_Item(i) # 查找所有指定文本 result = page.FindText("南极", TextFindParameter.IgnoreCase) # 高亮匹配的文本 for text in result.Finds: text.ApplyHighLight(Color.get_Lime()) # 保存结果文件 pdf.SaveToFile("查找高亮PDF文本.pdf") pdf.Close()
输出:
Python 查找并高亮PDF某个区域内的指定文本
步骤:
- 加载PDF文档
- 获取指定的PDF页面
- 指定一个矩形区域
- 查找矩形区域内的指定文本
- 遍历查找到的文本并设置高亮颜色
- 保存文档并关闭
代码:
from spire.pdf import * from spire.pdf.common import* # 加载PDF文档 pdf = PdfDocument() pdf.LoadFromFile("南极洲.pdf") # 获取第一页 pdfPageBase = pdf.Pages.get_Item(0) # 自定义一个矩形区域 rctg = RectangleF(0.0, 0.0, pdfPageBase.ActualSize.Width, 100.0) # 查找指定区域内所有的指定文本 findCollection = pdfPageBase.FindText(rctg,"南极",TextFindParameter.IgnoreCase) # 高亮匹配的文本 for find in findCollection.Finds: find.ApplyHighLight(Color.get_Magenta()) # 保存结果文件 pdf.SaveToFile("查找高亮指定区域中的文本.pdf") pdf.Close()
输出:
通过正则表达式查找文本并高亮:
步骤:
- 加载PDF文档
- 获取指定的PDF页面
- 指定一个正则表达式 (以下示例为匹配整数或小数)
- 使用正则表达式查找匹配的文本
- 遍历查找到的文本并设置高亮颜色
- 保存文档并关闭
代码:
from spire.pdf import * from spire.pdf.common import* # 加载PDF文档 pdf = PdfDocument() pdf.LoadFromFile("南极洲.pdf") # 指定匹配整数或者小数的正则表达式 regex = r'[0-9]+.{0,1}[0-9]{0,2}' # 获取第一页 page = pdf.Pages.get_Item(0) # 使用正则表达式查找匹配的文本 result = page.FindText(regex, TextFindParameter.Regex) # 高亮匹配的文本 for text in result.Finds: text.ApplyHighLight(Color.get_Cyan()) # 保存结果文件 pdf.SaveToFile("正则匹配.pdf")
输出:
以上为三种使用Python在PDF文档中搜索指定内容并设置文本高亮的方法。使用时可根据实际的需求或个人偏好选择最适合的解决方案。Spire.PDF for Python库还提供了其他的操作、处理PDF文档的接口,教程可从此处获取。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:jacktools123@163.com进行投诉反馈,一经查实,立即删除!
标签:
相关文章
最新发布
- 【Python】selenium安装+Microsoft Edge驱动器下载配置流程
- Python 中自动打开网页并点击[自动化脚本],Selenium
- Anaconda基础使用
- 【Python】成功解决 TypeError: ‘<‘ not supported between instances of ‘str’ and ‘int’
- manim边学边做--三维的点和线
- CPython是最常用的Python解释器之一,也是Python官方实现。它是用C语言编写的,旨在提供一个高效且易于使用的Python解释器。
- Anaconda安装配置Jupyter(2024最新版)
- Python中读取Excel最快的几种方法!
- Python某城市美食商家爬虫数据可视化分析和推荐查询系统毕业设计论文开题报告
- 如何使用 Python 批量检测和转换 JSONL 文件编码为 UTF-8
点击排行
- 版本匹配指南:Numpy版本和Python版本的对应关系
- 版本匹配指南:PyTorch版本、torchvision 版本和Python版本的对应关系
- Python 可视化 web 神器:streamlit、Gradio、dash、nicegui;低代码 Python Web 框架:PyWebIO
- 相关性分析——Pearson相关系数+热力图(附data和Python完整代码)
- Python与PyTorch的版本对应
- Anaconda版本和Python版本对应关系(持续更新...)
- Python pyinstaller打包exe最完整教程
- Could not build wheels for llama-cpp-python, which is required to install pyproject.toml-based proj