文字分类

时间:2016-03-13 19:19:35

标签: nlp

我对NLP有一个微不足道的理解,所以请保持基本。

我想通过关键字提取器/分类器在工作中运行一些PDF并构建分类 - 希望提供一些商业智能。

例如,考虑到我的几千份PDF文件,我想确定它们所适用的市场(我们服务于大约5个主要行业,每个行业都有几个小行业。每个行业和子行业都有一个特定的市场,并且在大多数情况下,那些与原始设备制造商打交道,后者又交易模型,进一步细分为零部件等。

我希望将这些PDF压缩成半结构化(实际上更像图形)输出,如:

  • 航天
    • 制造
      • 维修
        • PT支持
          • M250
          • C20
          • C18
    • 分发

文本分类器能做到吗?这太具体了吗?你如何训练这样的系统, C18 是“制造商”的“模型”M250系列的劳斯莱斯,“PT SUPPORT”是一个子组件?

我可以手动构建这些数据,但需要永远......

有没有办法可以使用文本分类器框架并构建比regex和python更有效的东西?

在这一点上寻找想法......在R和python libs上观看了一些教程,但它们听起来并不像我想要的那样。

1 个答案:

答案 0 :(得分:0)

好的,首先让我们将问题分解为小的子问题,我将打破任务

  1. 阅读PDF并从中提取数据和元数据 - 查看Apache Tikka lib
  2. 任何更有效的分类器都需要训练数据 - 为文本分类器创建训练数据
  3. 然后应用任何合适的分类器算法。
  4. 您还可以查看Carrot2群集算法,它会自动分析数据并将pdf分组到不同的类别。