我是否应该按文档将文本分成多个文本块以进行文档分类?

时间:2019-10-20 02:59:05

标签: nlp text-classification document-classification

我正在处理庞大的财务合同文件。我需要根据是否存在特定的“条款”对文档进行分类。

我的合同文件非常庞大,例如40页pdf文件。我需要训练的子句在-x“页面中。请注意,根据供应商的不同文档,” x“是不同的。在同一文档中,x可以分为两页。

我的问题是,当我训练文档分类器时,我是否应该只训练page-x中的文本,否则文本将被分成几页(x1,x2,x3)或。带有全文(在所有页面中)

我是否也需要用代表该子句的整个Text或文本的子部分来训练我的文档分类器。

在预测期间,我被迫提供文件的全文。如果我将雨水分成不同的块,分类器会执行吗?

0 个答案:

没有答案