使用Python从PDF中提取单词

时间:2019-07-06 09:36:07

标签: python python-3.x

我需要使用Python从pdf文件中提取文本并分析文本。目前,我使用PyPDF2和regex提取文本。它可以工作,但是要编写很多正则表达式(不同种类的pdf:s)。我已经开始研究ML(机器学习)和文本挖掘。我认为我不会开发出真正的AI,但可能会使用一些想法。一个关键部分似乎是提取单词,但是对我和从pdf中提取而言,主要的问题是单词之间通常没有空格,只有一个长字符串,带有字母,数字和符号。

有什么想法吗?是PyPDF2严重提取了文本,还是严重创建了pdf:s。是否有一些ML文本挖掘技术可以生成单词列表。有经验吗?

0 个答案:

没有答案