文本分类:基于长文档的培训并将其应用于短句

时间:2019-01-23 08:20:51

标签: python text-classification supervised-learning

我是NLP的初学者,并且有一个一般性的问题(也许太笼统了)。我有两个数据集。首先是具有给定类别分类的农业专利文件。第二个是单词/短句列表(农业任务,例如“施用肥料”或“磁盘”)。我的目标是将每个任务归类为专利类别之一。

在此阶段,我不想从基本原理开始并对算法的所有步骤进行编程。我认为可以使用spaCy的this算法,并进行一些小的更改。该算法训练模型将评论分类,然后将模型应用于新评论。在我的案例中,我看到的唯一区别是,我要用模型分类的数据与训练数据的长度不同(短句子与几段段落)。我的问题是:

  1. 我的计划有意义吗?
  2. 有人会为我的问题找到更好的算法吗?
  3. 基于我从书中收集的任务清单的文本的基础上,对该模型进行额外的培训是否会有所帮助(该文本当然没有分类。我的意思是训练基本模型,因此它将知道哪些单词彼此相似,或者通常在一起等)

谢谢!

0 个答案:

没有答案