我正在使用一个接收发票中所有文本的应用程序(通过处理该发票的扫描图像获得文本)。现在,因为有几种可用的发票格式,所以我需要对应用程序接收的格式进行分类。例如,某些格式可能包含单位数,有些则不包含(但它们都有总成本)。
我对解析技术进行了一些研究,但没有找到可行的解决方案。你对这类问题有什么建议吗?
答案 0 :(得分:1)
在Perl中,您可以使用Marpa,一般的BNF解析器 - 在BNF中描述您的发票格式,而Marpa将根据BNF解析您的发票,例如,它如何使用此complex example解决此simple code。