应用错误收集

我对NLP有一个微不足道的理解，所以请保持基本。

我想通过关键字提取器/分类器在工作中运行一些PDF并构建分类 - 希望提供一些商业智能。

例如，考虑到我的几千份PDF文件，我想确定它们所适用的市场（我们服务于大约5个主要行业，每个行业都有几个小行业。每个行业和子行业都有一个特定的市场，并且在大多数情况下，那些与原始设备制造商打交道，后者又交易模型，进一步细分为零部件等。

我希望将这些PDF压缩成半结构化（实际上更像图形）输出，如：

文本分类器能做到吗？这太具体了吗？你如何训练这样的系统， C18 是“制造商”的“模型”M250系列的劳斯莱斯，“PT SUPPORT”是一个子组件？

我可以手动构建这些数据，但需要永远......

有没有办法可以使用文本分类器框架并构建比regex和python更有效的东西？

在这一点上寻找想法......在R和python libs上观看了一些教程，但它们听起来并不像我想要的那样。