我想将pdf转换为txt,如果存在图像将替换为html标签。但我不知道页面何时有图像,如何检查其存在
答案 0 :(得分:0)
这可以使用Python的 pdf2txt 完成。
假设存在一个 document.pdf ,我们希望将其转换为文本文件。
以下内容可以输入到终端中以完成相同的操作:
pdf2txt.py -o document.txt document.en.pdf
请记住,您首先需要使用pip即pip install pdf2text
安装模块。
该模块能够转换ASCII或Unicode字符串格式的文本,但是请记住,您可能需要在Python本身中进行进一步的文本处理,这取决于您的目标是什么,即删除标点符号是不必要的停用词等