使用 pypdf 实现 PDF 文本的按页选择性提取

admin 百科 2025-12-14 19

使用 pypdf 实现 PDF 文本的按页选择性提取-第1张图片-佛山资讯网

本文将详细介绍如何利用 Python 的 `pypdf` 库进行 PDF 文本提取时，实现对特定页面的内容跳过或选择性处理。通过引入页码计数器和条件判断逻辑，您可以精确控制哪些页面的文本被包含在最终提取结果中，从而解决在批量提取时排除无关页面内容的需求。

1. 引言：PDF 文本提取与选择性处理的需求

pypdf 是一个功能强大的 Python 库，用于处理 PDF 文件，包括文本提取、页面合并、拆分等操作。在进行文本提取时，通常的需求是获取文档中所有页面的完整文本内容。然而，在某些场景下，我们可能需要排除特定页面的文本，例如跳过封面、目录页、版权页，或者仅仅因为某些页面（如示例中只有页码的页面）的内容不相关。直接提取所有页面的文本会导致最终结果中包含这些不必要的信息。本教程将指导您如何通过编程方式，在 pypdf 提取过程中实现这种选择性过滤。

2. pypdf 基本文本提取回顾

首先，我们回顾一下使用 pypdf 提取 PDF 文档所有页面文本的基本方法。这通常涉及遍历 PdfReader 对象的 pages 属性，并对每一页调用 extract_text() 方法。

from pypdf import PdfReader

# 假设您的PDF文件路径为 "pdf-examples/kurdish-sample-2.pdf"
pdf_path = "pdf-examples/kurdish-sample-2.pdf"

try:
    reader = PdfReader(pdf_path)
    full_text_all_pages = ""
    for page in reader.pages:
        full_text_all_pages += page.extract_text() + "\n"
    print("--- 原始完整文本提取 ---")
    print(full_text_all_pages)
except FileNotFoundError:
    print(f"错误：文件 '{pdf_path}' 未找到。请检查路径。")
except Exception as e:
    print(f"提取PDF时发生错误：{e}")

登录后复制

上述代码会提取 PDF 文档中所有页面的文本，并将其拼接成一个字符串。如果某个页面（例如，第 5 页）只包含一个页码或不希望被包含在最终结果中的内容，那么这些内容也会被一并提取。