应用错误收集

我需要使用Python从pdf文件中提取文本并分析文本。目前，我使用PyPDF2和regex提取文本。它可以工作，但是要编写很多正则表达式（不同种类的pdf：s）。我已经开始研究ML（机器学习）和文本挖掘。我认为我不会开发出真正的AI，但可能会使用一些想法。一个关键部分似乎是提取单词，但是对我和从pdf中提取而言，主要的问题是单词之间通常没有空格，只有一个长字符串，带有字母，数字和符号。

有什么想法吗？是PyPDF2严重提取了文本，还是严重创建了pdf：s。是否有一些ML文本挖掘技术可以生成单词列表。有经验吗？

使用Python从PDF中提取单词

0 个答案: