收据OCR的类别

时间:2017-04-07 06:38:49

标签: android dictionary tesseract

我正在尝试使用tesseract创建收据OCR应用。在识别过程之后,我想确定收据属于哪个类别,例如Food&饮料,交通,电话费等。我目前的做法是:

  1. 在一些常见商店旁边创建类别字典。
  2. 识别后,我将使用近似字符串匹配来尝试在字典中找到商店名称,如果存在,我会将收据分配到该类别。
  3. 如果找不到,我会将收据分配到默认类别,并等待用户从列表中选择一个。然后我会将这对保存在字典中以备将来使用。
  4. 问题在于,除了商店到类别对的限制外,如果我尝试对字典中的每一行使用近似字符串识别,那将会非常慢。有什么办法可以改善这个过程吗?

1 个答案:

答案 0 :(得分:0)

请注意,商店类别与有用的支出类别(想想 - 我在Target购买了什么,或Staples?)或在Staples购买咖啡与杂货店相匹配。

此API: https://apidocs.itemize.com/enterprise/ 会做你想做的事。