如何在python中将pdf转换为txt

时间:2019-07-10 08:11:55

标签: python pdf

我想将pdf转换为txt,如果存在图像将替换为html标签。但我不知道页面何时有图像,如何检查其存在

1 个答案:

答案 0 :(得分:0)

这可以使用Python的 pdf2txt 完成。

假设存在一个 document.pdf ,我们希望将其转换为文本文件。

以下内容可以输入到终端中以完成相同的操作:

pdf2txt.py -o document.txt document.en.pdf

请记住,您首先需要使用pip即pip install pdf2text安装模块。

该模块能够转换ASCII或Unicode字符串格式的文本,但是请记住,您可能需要在Python本身中进行进一步的文本处理,这取决于您的目标是什么,即删除标点符号是不必要的停用词等