首页 > Python资料 博客日记
Python 查找PDF中的指定文本并高亮显示
2024-03-18 16:00:03Python资料围观223次
文章Python 查找PDF中的指定文本并高亮显示分享给大家,欢迎收藏Python资料网,专注分享技术知识
在处理大量PDF文档时,有时我们需要快速找到特定的文本信息。本文将提供以下三个Python示例来帮助你在PDF文件中快速查找并高亮指定的文本。
- 查找并高亮PDF中所有的指定文本
- 查找并高亮PDF某个区域内的指定文本
- 使用正则表达式搜索指定文本并高亮
本文将用到国产第三方库 - Spire.PDF for Python,该库提供 PdfPageBase.FindText() 方法可用于查找PDF中的特定文本,然后再使用 PdfTextFind.ApplyHighLight() 方法为匹配到的文本设置指定的高亮颜色以突出显示。
在运行接下来提供的示例代码之前,先通过pip安装Spire.PDF for Python库:
pip install Spire.PDF
Python 查找并高亮PDF中所有的指定文本
步骤:
- 加载PDF文档
- 遍历其中的页面
- 查找所有指定的文本
- 遍历所有查找到的文本并设置高亮颜色
- 保存文档并关闭
代码:
from spire.pdf import * from spire.pdf.common import* # 加载PDF文档 pdf = PdfDocument() pdf.LoadFromFile("南极洲.pdf") # 遍历PDF中所有页面 for i in range(pdf.Pages.Count): page = pdf.Pages.get_Item(i) # 查找所有指定文本 result = page.FindText("南极", TextFindParameter.IgnoreCase) # 高亮匹配的文本 for text in result.Finds: text.ApplyHighLight(Color.get_Lime()) # 保存结果文件 pdf.SaveToFile("查找高亮PDF文本.pdf") pdf.Close()
输出:
Python 查找并高亮PDF某个区域内的指定文本
步骤:
- 加载PDF文档
- 获取指定的PDF页面
- 指定一个矩形区域
- 查找矩形区域内的指定文本
- 遍历查找到的文本并设置高亮颜色
- 保存文档并关闭
代码:
from spire.pdf import * from spire.pdf.common import* # 加载PDF文档 pdf = PdfDocument() pdf.LoadFromFile("南极洲.pdf") # 获取第一页 pdfPageBase = pdf.Pages.get_Item(0) # 自定义一个矩形区域 rctg = RectangleF(0.0, 0.0, pdfPageBase.ActualSize.Width, 100.0) # 查找指定区域内所有的指定文本 findCollection = pdfPageBase.FindText(rctg,"南极",TextFindParameter.IgnoreCase) # 高亮匹配的文本 for find in findCollection.Finds: find.ApplyHighLight(Color.get_Magenta()) # 保存结果文件 pdf.SaveToFile("查找高亮指定区域中的文本.pdf") pdf.Close()
输出:
通过正则表达式查找文本并高亮:
步骤:
- 加载PDF文档
- 获取指定的PDF页面
- 指定一个正则表达式 (以下示例为匹配整数或小数)
- 使用正则表达式查找匹配的文本
- 遍历查找到的文本并设置高亮颜色
- 保存文档并关闭
代码:
from spire.pdf import * from spire.pdf.common import* # 加载PDF文档 pdf = PdfDocument() pdf.LoadFromFile("南极洲.pdf") # 指定匹配整数或者小数的正则表达式 regex = r'[0-9]+.{0,1}[0-9]{0,2}' # 获取第一页 page = pdf.Pages.get_Item(0) # 使用正则表达式查找匹配的文本 result = page.FindText(regex, TextFindParameter.Regex) # 高亮匹配的文本 for text in result.Finds: text.ApplyHighLight(Color.get_Cyan()) # 保存结果文件 pdf.SaveToFile("正则匹配.pdf")
输出:
以上为三种使用Python在PDF文档中搜索指定内容并设置文本高亮的方法。使用时可根据实际的需求或个人偏好选择最适合的解决方案。Spire.PDF for Python库还提供了其他的操作、处理PDF文档的接口,教程可从此处获取。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:jacktools123@163.com进行投诉反馈,一经查实,立即删除!
标签:
相关文章
最新发布
- 光流法结合深度学习神经网络的原理及应用(完整代码都有Python opencv)
- Python 图像处理进阶:特征提取与图像分类
- 大数据可视化分析-基于python的电影数据分析及可视化系统_9532dr50
- 【Python】入门(运算、输出、数据类型)
- 【Python】第一弹---解锁编程新世界:深入理解计算机基础与Python入门指南
- 华为OD机试E卷 --第k个排列 --24年OD统一考试(Java & JS & Python & C & C++)
- Python已安装包在import时报错未找到的解决方法
- 【Python】自动化神器PyAutoGUI —告别手动操作,一键模拟鼠标键盘,玩转微信及各种软件自动化
- Pycharm连接SQL Sever(详细教程)
- Python编程练习题及解析(49题)
点击排行
- 版本匹配指南:Numpy版本和Python版本的对应关系
- 版本匹配指南:PyTorch版本、torchvision 版本和Python版本的对应关系
- Python 可视化 web 神器:streamlit、Gradio、dash、nicegui;低代码 Python Web 框架:PyWebIO
- 相关性分析——Pearson相关系数+热力图(附data和Python完整代码)
- Anaconda版本和Python版本对应关系(持续更新...)
- Python与PyTorch的版本对应
- Windows上安装 Python 环境并配置环境变量 (超详细教程)
- Python pyinstaller打包exe最完整教程