标签: tensorflow machine-learning neural-network lstm multilabel-classification
我们有大量收据(超过2万张),并且希望对这些收据进行分类。一张收据可以属于一个或多个类别。目前,我们有500多个类别。
即
因此,除了我在上面的示例中提到的类别之外,我们还具有“税收”类别,并且大部分收入都是其中的一部分。因此,每个收据可以具有一个或多个类别。
所以要猜测这个类别,我们使用了多标签分类解决方案。目前,我们将使用收据的全部文本,并使用收据文本和类别对模型进行训练。
想要验证我们是否遵循正确的方法来解决此问题。期待这里有专家的想法。
答案 0 :(得分:1)
根据您的解释,您要解决的问题是基于示例的多类分类而不是多标签分类。
如果每个收据仅映射到许多可能类别中的一个类别,则为多类别分类。
如果每个收据可以映射到许多可能类别中的多个类别,则为多标签分类。
要了解更多信息并了解sklearn中解决这些问题的可用算法,请查看here。
有关使用文本数据的更多基本步骤,请read here
编辑:
您可以有一个单独的模型来预测每张收据的税收类别。由于构建多个多类模型比单个多标签模型相对容易。