一、环境配置

在实现转换之前需要我们配置好相关环境配置:

如果您是Python3.X版本的话,需要安装pdfminer.six 第三方库

pip install pdfminer.six

如果您是Python2.X版本的话,需要安装pdfminer.six 第三方库

pip install pdfminer3k

方法一:如果您有pycharm这个软件,那么我们的环境配置就十分简单了

step1:点开【文件】----->选择【设置选项】
在这里插入图片描述
step2:进入【设置】后点开【项目】----->选择【Python解释器】,点击左上方的那个【+】号
在这里插入图片描述
step3:进入【+】后搜索您想要的【第三方库名称】,因为我的是Python3.x版本,所以需要选择pdfminer.six版本,然后点击【安装软件包】,就成功了。
在这里插入图片描述
方法二:去官网下载安装包,但是由于我这里没有使用,所以如果您需要的话可以自行去百度自取安装方法。

二、代码实现

import os
import re
from pdfminer.converter import LTChar, TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBox
from io import StringIO
from io import open


# 读取pdf文件文本内容
def read(path):
    parser = PDFParser(path)
    doc = PDFDocument(parser, '')
    parser.set_document(doc)
    if not doc.is_extractable:
        raise PDFTextExtractionNotAllowed
    else:
        # 创建PDf 资源管理器 来管理共享资源
        rsrcmgr = PDFResourceManager()
        # 创建一个PDF聚合器,包含资源管理器与参数分析器
        laparams = LAParams()
        device = PDFPageAggregator(rsrcmgr, laparams=laparams)
        # 创建一个PDF解释器对象
        interpreter = PDFPageInterpreter(rsrcmgr, device)
        # 循环遍历列表,每次处理一个page的内容
        page0 = ''
        for i, page in enumerate(PDFPage.create_pages(doc)):
            interpreter.process_page(page)
            print("START PAGE %d\n" % i)
            if page is not None:
                interpreter.process_page(page)
            print("END PAGE %d\n" % i)
            # 接受该页面的LTPage对象
            layout = device.get_result()
            print(layout)
            # 这里layout是一个LTPage对象,里面存放着这个 page 解析出的各种对象
            # 包括 LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等
            line0 = ''
            for x in layout:
                if isinstance(x, LTTextBox):
                    line0 = line0 + x.get_text().strip()
            page0 = page0 + line0
        return page0  # 返回pdf文件中所有提取到的文本内容


if __name__ == '__main__':
#PDF文件所在的路径.注意:一定要将Python文件与PDF文件放在同一个目录内,否则代码不能成功运行
    path = 'C:\pycharm'     
    pdfList = os.listdir(path)
    # 批量读取存储
    pdf_num = 0
    for li in pdfList:
        try:
            pdffile = open(path + '/' + li, "rb")
            content = read(pdffile)
        except:
            continue
        str = re.sub('.pdf', '.txt', li)
         #输出的TXT文件,生成out.txt文件
        file1 = 'out' + str  
        with open(file1, 'w+', encoding='utf8') as f:
            f.write(content)
        pdf_num = pdf_num + 1
        print("DONE:" + str)
    print('number of done-article:', end="")
    print(pdf_num)

三、代码实现结果

在这里插入图片描述
代码成功实现之后,会生成一个out.txt文件,里面就是提取PDF的内容。
(由于我这个之前已经提取过了,所以说它生成的是out1.txt文件)

在这里插入图片描述

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐