我需要从PDF文件中提取文本并制作一个新的.txt文件以放入

时间:2019-04-23 11:38:00

标签: python pdf python-3.7 pypdf2

我需要PYTHON脚本的帮助来读取PDF文件并复制每个单词,然后将它们放在一个新的.txt文件中(每个单词必须占用1行);然后删除重复的单词并在其后计数并在最后一行打印计数

2 个答案:

答案 0 :(得分:0)

您是否在Stackoverflow上搜索答案?

在这里您可以找到有关如何从pdf文件中提取文本的一些很好的答案(请看Jakobovski答案): How to extract text from a PDF file?

在这里您可以找到有关编写/编辑/创建.txt文件的信息: https://www.guru99.com/reading-and-writing-files-in-python.html

答案 1 :(得分:0)

安装这些库。

PyPDF2(将基于文本的简单PDF文件转换为Python可读的文本)

textract(将不重要的,扫描的PDF文件转换为Python可读的文本)

nltk(用于清除短语并将其转换为关键字)

可以在侧面终端(在macOS上)中使用以下命令安装每个库:

pip install Libraryname

请参阅本教程https://medium.com/@rqaiserr/how-to-convert-pdfs-into-searchable-key-words-with-python-85aab86c544f

使用texttrack,它支持多种类型的文件,也支持PDF。所以文本轨道更好。

关注这些链接

https://github.com/deanmalmgren/textract

https://textract.readthedocs.io/en/latest/