我是NLP的初学者,并且有一个一般性的问题(也许太笼统了)。我有两个数据集。首先是具有给定类别分类的农业专利文件。第二个是单词/短句列表(农业任务,例如“施用肥料”或“磁盘”)。我的目标是将每个任务归类为专利类别之一。
在此阶段,我不想从基本原理开始并对算法的所有步骤进行编程。我认为可以使用spaCy的this算法,并进行一些小的更改。该算法训练模型将评论分类,然后将模型应用于新评论。在我的案例中,我看到的唯一区别是,我要用模型分类的数据与训练数据的长度不同(短句子与几段段落)。我的问题是:
谢谢!