NLP-使用哪种技术对段落标签进行分类?

时间:2019-03-20 07:46:56

标签: python machine-learning text nlp text-classification

我对NLP还是陌生的,所以我尝试学习可以帮助我完成工作的技术。

这是我的任务:我必须根据文本提示对钻孔过程的各个阶段进行分类。

enter image description here

我必须根据“ Com”列中的内容对“活动”,“活动详细信息”,“操作”的标签进行分类。

我已经在线阅读了很多文章,而我所阅读的所有各种技术确实让我感到困惑。

我想理解的流行语是

  1. Skip-gram(基于预测的方法,Word2Vec)
  2. TF-IDF(基于频率的方法)
  3. 同现矩阵(基于频率的方法)

我得到了大约40,000行数据(我知道这是非常小的),并且我遇到了一篇文章,说如果我进行的训练很少,那么基于Skip-gram的神经网络模型可能不是一个好选择数据。因此,我也正在研究基于频率的方法。总体而言,我不确定哪种技术最适合我。

这是我的理解:

    跳过语法:用于表示向量空间中单词的技术。但是一旦向量化语料库,我就不知道下一步该怎么做
  1. TF-IDF:告诉每个单词在每个句子中的重要性。但我仍然不知道如何将其应用于我的问题
  2. 共生矩阵:我真的不明白它是什么。
  3. 所有这三种技术都是用数字表示文本。但是我不确定下一步要对标签进行实际分类。

我应该使用哪种方法和技术顺序来解决我的问题?如果有任何开源Jupyter笔记本项目,或链接到完成了类似工作的文章(希望包含代码),请在此处共享。

1 个答案:

答案 0 :(得分:2)

让我们弄清楚点。您的任务是创建一个可以预测给定文本标签的系统,对吗?对于非结构化数据(文本),无法进行标签预测(分类)。因此,您需要使数据结构化,然后训练和推断分类器。因此,您需要引入两个独立的系统:

  1. 文本矢量化器(如您所说,它有助于数字表示文本)。
  2. 分类器(以预测数字表示的文本的标签)。

Skip-Gram和共现矩阵是矢量化文本的方法(这里有一个不错的article,解释了它们的区别)。如果使用skip-gram,则可以下载并使用已经将向量映射到大多数单词的第三方模型。如果是共现矩阵,则需要在文本上进行构建(如果您有特定的词汇,这将是更好的方法)。在此矩阵中,您可以使用不同的度量来表示单词与单词或文档与文档的共现程度。 TF-IDF是此类措施之一(为每个单词文档对都给出一个分数);还有很多其他内容(PMI,BM25等)。 article应该有助于对数据进行共现矩阵分类。这个one给出了一个如何使用Word2Vec进行操作的想法。

希望它有所帮助!