猜测收据的类别

时间:2018-12-22 05:11:56

标签: tensorflow machine-learning neural-network lstm multilabel-classification

我们有大量收据(超过2万张),并且希望对这些收据进行分类。一张收据可以属于一个或多个类别。目前,我们有500多个类别。

  • 如果收据是关于互联网付款的。然后,我们的类别为“ InternetService”,并且收据中包含ISP信息和付款信息。
  • 如果收据是关于午餐郊游的,那么我们的类别为“食品和饮料”,我们有餐厅名称,食品信息和金额。
  • 如果收据是关于出租车的付款,则我们的类别为“运输”,我们有出租车公司信息,车辆,驾驶员,位置信息和金额。

因此,除了我在上面的示例中提到的类别之外,我们还具有“税收”类别,并且大部分收入都是其中的一部分。因此,每个收据可以具有一个或多个类别。

所以要猜测这个类别,我们使用了多标签分类解决方案。目前,我们将使用收据的全部文本,并使用收据文本和类别对模型进行训练。

想要验证我们是否遵循正确的方法来解决此问题。期待这里有专家的想法。

1 个答案:

答案 0 :(得分:1)

根据您的解释,您要解决的问题是基于示例的多类分类而不是多标签分类。

如果每个收据仅映射到许多可能类别中的一个类别,则为多类别分类。

如果每个收据可以映射到许多可能类别中的多个类别,则为多标签分类。

要了解更多信息并了解sklearn中解决这些问题的可用算法,请查看here

有关使用文本数据的更多基本步骤,请read here

编辑:

您可以有一个单独的模型来预测每张收据的税收类别。由于构建多个多类模型比单个多标签模型相对容易。