标签: nlp text-classification document-classification
我的合同文件非常庞大,例如40页pdf文件。我需要训练的子句在-x“页面中。请注意,根据供应商的不同文档,” x“是不同的。在同一文档中,x可以分为两页。
我的问题是,当我训练文档分类器时,我是否应该只训练page-x中的文本,否则文本将被分成几页(x1,x2,x3)或。带有全文(在所有页面中)
我是否也需要用代表该子句的整个Text或文本的子部分来训练我的文档分类器。
在预测期间,我被迫提供文件的全文。如果我将雨水分成不同的块,分类器会执行吗?