首页 > Python资料 博客日记
Python 查找PDF中的指定文本并高亮显示
2024-03-18 16:00:03Python资料围观131次
文章Python 查找PDF中的指定文本并高亮显示分享给大家,欢迎收藏Python资料网,专注分享技术知识
在处理大量PDF文档时,有时我们需要快速找到特定的文本信息。本文将提供以下三个Python示例来帮助你在PDF文件中快速查找并高亮指定的文本。
- 查找并高亮PDF中所有的指定文本
- 查找并高亮PDF某个区域内的指定文本
- 使用正则表达式搜索指定文本并高亮
本文将用到国产第三方库 - Spire.PDF for Python,该库提供 PdfPageBase.FindText() 方法可用于查找PDF中的特定文本,然后再使用 PdfTextFind.ApplyHighLight() 方法为匹配到的文本设置指定的高亮颜色以突出显示。
在运行接下来提供的示例代码之前,先通过pip安装Spire.PDF for Python库:
pip install Spire.PDF
Python 查找并高亮PDF中所有的指定文本
步骤:
- 加载PDF文档
- 遍历其中的页面
- 查找所有指定的文本
- 遍历所有查找到的文本并设置高亮颜色
- 保存文档并关闭
代码:
from spire.pdf import * from spire.pdf.common import* # 加载PDF文档 pdf = PdfDocument() pdf.LoadFromFile("南极洲.pdf") # 遍历PDF中所有页面 for i in range(pdf.Pages.Count): page = pdf.Pages.get_Item(i) # 查找所有指定文本 result = page.FindText("南极", TextFindParameter.IgnoreCase) # 高亮匹配的文本 for text in result.Finds: text.ApplyHighLight(Color.get_Lime()) # 保存结果文件 pdf.SaveToFile("查找高亮PDF文本.pdf") pdf.Close()
输出:
Python 查找并高亮PDF某个区域内的指定文本
步骤:
- 加载PDF文档
- 获取指定的PDF页面
- 指定一个矩形区域
- 查找矩形区域内的指定文本
- 遍历查找到的文本并设置高亮颜色
- 保存文档并关闭
代码:
from spire.pdf import * from spire.pdf.common import* # 加载PDF文档 pdf = PdfDocument() pdf.LoadFromFile("南极洲.pdf") # 获取第一页 pdfPageBase = pdf.Pages.get_Item(0) # 自定义一个矩形区域 rctg = RectangleF(0.0, 0.0, pdfPageBase.ActualSize.Width, 100.0) # 查找指定区域内所有的指定文本 findCollection = pdfPageBase.FindText(rctg,"南极",TextFindParameter.IgnoreCase) # 高亮匹配的文本 for find in findCollection.Finds: find.ApplyHighLight(Color.get_Magenta()) # 保存结果文件 pdf.SaveToFile("查找高亮指定区域中的文本.pdf") pdf.Close()
输出:
通过正则表达式查找文本并高亮:
步骤:
- 加载PDF文档
- 获取指定的PDF页面
- 指定一个正则表达式 (以下示例为匹配整数或小数)
- 使用正则表达式查找匹配的文本
- 遍历查找到的文本并设置高亮颜色
- 保存文档并关闭
代码:
from spire.pdf import * from spire.pdf.common import* # 加载PDF文档 pdf = PdfDocument() pdf.LoadFromFile("南极洲.pdf") # 指定匹配整数或者小数的正则表达式 regex = r'[0-9]+.{0,1}[0-9]{0,2}' # 获取第一页 page = pdf.Pages.get_Item(0) # 使用正则表达式查找匹配的文本 result = page.FindText(regex, TextFindParameter.Regex) # 高亮匹配的文本 for text in result.Finds: text.ApplyHighLight(Color.get_Cyan()) # 保存结果文件 pdf.SaveToFile("正则匹配.pdf")
输出:
以上为三种使用Python在PDF文档中搜索指定内容并设置文本高亮的方法。使用时可根据实际的需求或个人偏好选择最适合的解决方案。Spire.PDF for Python库还提供了其他的操作、处理PDF文档的接口,教程可从此处获取。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:jacktools123@163.com进行投诉反馈,一经查实,立即删除!
标签:
相关文章
最新发布
- 【Python系列】SQLAlchemy 基本介绍
- 【Python】selenium 的EC.presence_of_element_located 和 EC.element_to_be_clickable 的区别
- 从零到一!超详细Pycharm安装教程(图解+详细步骤)
- python json jsonl 的用法
- 【Python篇】深度探索NumPy(下篇):从科学计算到机器学习的高效实战技巧
- boto3:Python连接S3对象存储并进行文件操作(上传、下载、删除)
- 全网最适合入门的面向对象编程教程:50 Python函数方法与接口-接口和抽象基类
- Python pycryptodome类库使用学习总结
- import torch 报错:WinError 126
- 如何在Java中实现邮件发送功能?
点击排行
- 版本匹配指南:Numpy版本和Python版本的对应关系
- Python 可视化 web 神器:streamlit、Gradio、dash、nicegui;低代码 Python Web 框架:PyWebIO
- 版本匹配指南:PyTorch版本、torchvision 版本和Python版本的对应关系
- 相关性分析——Pearson相关系数+热力图(附data和Python完整代码)
- Could not build wheels for llama-cpp-python, which is required to install pyproject.toml-based proj
- Python pyinstaller打包exe最完整教程
- Anaconda版本和Python版本对应关系(持续更新...)
- Python与PyTorch的版本对应