使用PyPDF进行PDF文本提取:选择性页面处理与内容过滤

admin 百科 13

使用PyPDF进行PDF文本提取:选择性页面处理与内容过滤

本教程详细介绍了如何使用python的`pypdf`库从pdf文档中高效提取文本,并重点讲解了在提取过程中处理不需要内容(如页码或特定页面)的两种主要策略。文章将通过代码示例,演示如何根据页码选择性地跳过整个页面,以及如何通过字符串处理技术从已提取的页面文本中过滤掉嵌入的特定内容,从而生成更干净、更符合需求的文本输出。

PDF文本提取基础与常见挑战

在使用Python处理PDF文档时,pypdf库是一个强大且常用的工具,可以方便地读取PDF内容并提取文本。然而,在实际应用中,我们常常会遇到需要对提取的文本进行清洗的情况。例如,PDF页面中可能包含页码、页眉、页脚、水印或其他非内容性信息,这些元素在文本提取后可能会干扰后续的数据处理或分析。

以下是使用pypdf进行基本文本提取的示例:

使用PyPDF进行PDF文本提取:选择性页面处理与内容过滤-第2张图片-佛山资讯网

from pypdf import PdfReader

# 假设我们有一个名为 "pdf-examples/kurdish-sample-2.pdf" 的PDF文件
reader = PdfReader("pdf-examples/kurdish-sample-2.pdf")
full_text = ""

for page in reader.pages:
    full_text += page.extract_text() + "\n"

print(full_text)

登录后复制

在某些情况下,上述代码的输出可能包含不希望出现的页码,例如:

5 دوارۆژی ئەم منداڵه بکەنەوە کە چۆن و چی بەسەر دێت و دووچاری

登录后复制

这里的数字“5”即为页面内容的一部分,而非我们希望提取的实际文本。为了解决这个问题,我们可以采用不同的策略。

策略一:根据页码跳过特定页面

如果某个页面包含的绝大部分内容都是不相关的(例如,仅有页码、版权信息或空白页),或者我们确定某个页面的文本完全不需要,最直接的方法是完全跳过该页面的文本提取。这可以通过在遍历页面时引入一个计数器并进行条件判断来实现。

实现方法:

  1. 初始化一个页面计数器。
  2. 在循环中,每次迭代时递增计数器。
  3. 使用条件语句(if)检查当前页码是否为需要跳过的页码。
  4. 如果匹配,则使用pass语句跳过当前页面的文本提取;否则,将页面文本添加到总文本中。

以下是实现这一策略的示例代码:

from pypdf import PdfReader

def extract_text_excluding_pages(pdf_path, pages_to_exclude=None):
    """
    从PDF中提取文本,并跳过指定的页面。

    Args:
        pdf_path (str): PDF文件的路径。
        pages_to_exclude (list or int, optional): 一个整数或整数列表,表示要跳过的页面索引(从1开始)。
                                                  如果为None,则提取所有页面。
    Returns:
        str: 提取到的所有页面的合并文本。
    """
    reader = PdfReader(pdf_path)
    extracted_text = ""

    # 确保 pages_to_exclude 是一个列表,方便处理单个或多个页面
    if isinstance(pages_to_exclude, int):
        pages_to_exclude = [pages_to_exclude]
    elif pages_to_exclude is None:
        pages_to_exclude = []

    for i, page in enumerate(reader.pages, start=1): # enumerate从1开始计数,与实际页码对应
        if i in pages_to_exclude:
            # 如果当前页码在排除列表中,则跳过该页
            pass
        else:
            # 否则,提取并添加页面文本
            extracted_text += page.extract_text() + "\n"

    return extracted_text

# 示例用法:跳过第5页
pdf_file = "pdf-examples/kurdish-sample-2.pdf"
filtered_text = extract_text_excluding_pages(pdf_file, pages_to_exclude=5)
print(filtered_text)

# 示例用法:跳过第1页和第3页
# filtered_text_multiple = extract_text_excluding_pages(pdf_file, pages_to_exclude=[1, 3])
# print(filtered_text_multiple)

登录后复制

注意事项:

标签: python 正则表达式 工具 pdf red elif

发布评论 0条评论)

还木有评论哦,快来抢沙发吧~