Question

我需要PYTHON脚本的帮助来读取PDF文件并复制每个单词，然后将它们放在一个新的.txt文件中（每个单词必须占用1行）；然后删除重复的单词并在其后计数并在最后一行打印计数

Answer 1

您是否在Stackoverflow上搜索答案？

在这里您可以找到有关如何从pdf文件中提取文本的一些很好的答案（请看Jakobovski答案）： How to extract text from a PDF file?

在这里您可以找到有关编写/编辑/创建.txt文件的信息： https://www.guru99.com/reading-and-writing-files-in-python.html

Answer 2

安装这些库。

PyPDF2（将基于文本的简单PDF文件转换为Python可读的文本）

textract（将不重要的，扫描的PDF文件转换为Python可读的文本）

nltk（用于清除短语并将其转换为关键字）

可以在侧面终端（在macOS上）中使用以下命令安装每个库：

pip install Libraryname

使用texttrack，它支持多种类型的文件，也支持PDF。所以文本轨道更好。

关注这些链接