我对NLP有一个微不足道的理解,所以请保持基本。
我想通过关键字提取器/分类器在工作中运行一些PDF并构建分类 - 希望提供一些商业智能。
例如,考虑到我的几千份PDF文件,我想确定它们所适用的市场(我们服务于大约5个主要行业,每个行业都有几个小行业。每个行业和子行业都有一个特定的市场,并且在大多数情况下,那些与原始设备制造商打交道,后者又交易模型,进一步细分为零部件等。
我希望将这些PDF压缩成半结构化(实际上更像图形)输出,如:
文本分类器能做到吗?这太具体了吗?你如何训练这样的系统, C18 是“制造商”的“模型”M250系列的劳斯莱斯,“PT SUPPORT”是一个子组件?
我可以手动构建这些数据,但需要永远......
有没有办法可以使用文本分类器框架并构建比regex和python更有效的东西?
在这一点上寻找想法......在R和python libs上观看了一些教程,但它们听起来并不像我想要的那样。
答案 0 :(得分:0)
好的,首先让我们将问题分解为小的子问题,我将打破任务
您还可以查看Carrot2群集算法,它会自动分析数据并将pdf分组到不同的类别。