我需要使用Python从pdf文件中提取文本并分析文本。目前,我使用PyPDF2和regex提取文本。它可以工作,但是要编写很多正则表达式(不同种类的pdf:s)。我已经开始研究ML(机器学习)和文本挖掘。我认为我不会开发出真正的AI,但可能会使用一些想法。一个关键部分似乎是提取单词,但是对我和从pdf中提取而言,主要的问题是单词之间通常没有空格,只有一个长字符串,带有字母,数字和符号。
有什么想法吗?是PyPDF2严重提取了文本,还是严重创建了pdf:s。是否有一些ML文本挖掘技术可以生成单词列表。有经验吗?