我需要PYTHON脚本的帮助来读取PDF文件并复制每个单词,然后将它们放在一个新的.txt文件中(每个单词必须占用1行);然后删除重复的单词并在其后计数并在最后一行打印计数
答案 0 :(得分:0)
您是否在Stackoverflow上搜索答案?
在这里您可以找到有关如何从pdf文件中提取文本的一些很好的答案(请看Jakobovski答案): How to extract text from a PDF file?
在这里您可以找到有关编写/编辑/创建.txt文件的信息: https://www.guru99.com/reading-and-writing-files-in-python.html
答案 1 :(得分:0)
安装这些库。
PyPDF2(将基于文本的简单PDF文件转换为Python可读的文本)
textract(将不重要的,扫描的PDF文件转换为Python可读的文本)
nltk(用于清除短语并将其转换为关键字)
可以在侧面终端(在macOS上)中使用以下命令安装每个库:
pip install Libraryname
请参阅本教程https://medium.com/@rqaiserr/how-to-convert-pdfs-into-searchable-key-words-with-python-85aab86c544f
使用texttrack,它支持多种类型的文件,也支持PDF。所以文本轨道更好。
关注这些链接