应用错误收集

我是NLP的初学者，并且有一个一般性的问题（也许太笼统了）。我有两个数据集。首先是具有给定类别分类的农业专利文件。第二个是单词/短句列表（农业任务，例如“施用肥料”或“磁盘”）。我的目标是将每个任务归类为专利类别之一。

在此阶段，我不想从基本原理开始并对算法的所有步骤进行编程。我认为可以使用spaCy的this算法，并进行一些小的更改。该算法训练模型将评论分类，然后将模型应用于新评论。在我的案例中，我看到的唯一区别是，我要用模型分类的数据与训练数据的长度不同（短句子与几段段落）。我的问题是：

我的计划有意义吗？
有人会为我的问题找到更好的算法吗？
基于我从书中收集的任务清单的文本的基础上，对该模型进行额外的培训是否会有所帮助（该文本当然没有分类。我的意思是训练基本模型，因此它将知道哪些单词彼此相似，或者通常在一起等）

谢谢！