install:: pip3 install pdfplumber import:: import pdfplumber github:: doc::


PDFPlumber 是基于pdfminer.si 实现的 Python PDF 文本和表格解析工具。

读取

import pdfplumber
 
# 读取文件
pdf = pdfplumber.open('file.pdf')
 
# 用 with 方式
with pdfplumber.open('file.pdf') as file:
    page_list = pdf.pages # 获取所有页
 
    for page in page_list:
        print(page.extract_text()) # 获取文本
  • pdf.pages: 获取所有页(列表)
  • page.extract_text(): 获取页文本(字符串,含表格数据)
  • page.extract_tables(): 获取表格数据

参考