install:: pip3 install pdfplumber import:: import pdfplumber github:: doc::
PDFPlumber 是基于pdfminer.si 实现的 Python PDF 文本和表格解析工具。
读取
import pdfplumber
# 读取文件
pdf = pdfplumber.open('file.pdf')
# 用 with 方式
with pdfplumber.open('file.pdf') as file:
page_list = pdf.pages # 获取所有页
for page in page_list:
print(page.extract_text()) # 获取文本
pdf.pages
: 获取所有页(列表)page.extract_text()
: 获取页文本(字符串,含表格数据)page.extract_tables()
: 获取表格数据