文本分类问题:这种分类的名称和方法

时间:2019-12-07 14:39:04

标签: machine-learning deep-learning nlp text-classification multiclass-classification

我有一个带标签的数据集,包括文本段和相应的标签。每个标签由三部分组成,并且可以将多个或零个标签分配给给定的文本段。

Sample Data is given below:

text segment                              action        performed       person  
 ---                                       ---           ---             ---
"I went outside to play and not drink."   {play,drink}  {yes,no}        {1st,1st}
"He is not playing."                       play          no              3rd
"The weather is cold today."               N/A           N/A             N/A

任务是预测任何给定文本段的标签,其中每个标签由三个部分(动作,执行,人)组成,并且一个文本段可能有零个或多个标签。

有15个用于操作的分类器,两个用于执行的分类器,两个用于人员的分类器。带注释的数据大小为6000个文本段,其中4000个文本段至少分配了一个标签。

这种文本分类称为什么类型(多类标签除外)?

此外,对于这种类型的分类问题,建议使用哪种分类方法?

1 个答案:

答案 0 :(得分:0)

这不是分类问题。尽管您可能为此目的折磨分类模型,但是您需要的NLP技术是“依赖关系解析”和“语义角色标记”。 Spacy是一个很好的用于进行依赖项解析的python库。