我在OCR上工作。我们自动从发票中提取文本。当提取发票的内容时,它们存储在文本文件中,然后我们编写脚本以根据我们的要求从文本文件中提取数据。
让我陷入困境的一个要求是,我需要从未以任何特定格式编写的文本文件中提取日期。它写成12 08 2014
一行。我需要提取它并以dd/mm/yyyy
格式打印出来。
此外,日期可以任何格式书写,例如2013年12月2日,12-12-2013,2013年8月12日,等等。我需要阅读日期并以dd/mm/yyyy
。
有点想要解决这个问题。
日期没有固定的位置。大约有14000张发票,大多数都有日期和单独格式的单独位置。我得到了发票的图像和扫描的文本文件,我必须找到日期并尝试格式化。
日期不是我可以使用的任何固定关键字之后。就像我在第一点提到的那样,它可以在发票号,成本或任何其他工作之后。因此,使用关键字搜索它的想法也不起作用。
这是最愚蠢的一个,假设我得到了2011年1月1日的日期,我怎么知道当天的最新情况和月份是什么时候?客户刚刚输入了一个日期,我无法找到当天和月份的最新信息。是否有可能找到这个?
ORDERED SHIPPED 01239751 28 08 14 03 09 14 E31192-00 1 CUST.NO. ItN1 R 0 R NO SALE MM NOM CI WATT VOTRF NO nr CAMMANOF in-W.01M ADDRESS HERE Te1:(123)123-1234/ Fax:(123)795-1234 Facture / Invoice OUTPS:R-103958989 CONE:MONS Taws> NET 60 DAYS SOLD TO / VENDU A SHIPPED TO / EXPEDIE A
答案 0 :(得分:0)
你已经问过了这个问题。
你不知道,也没有办法知道。我们通常将其基于计算机的区域设置来读取日期。 Yanks做m / d / y而世界其他地方做d / m / y。在美国,Windows功能假设第一个,而在世界其他地方则是第二个。
至于岁月。根据控制面板设置解释两位数。 29及以下是2000至2029. 30及以上是1930年至1999年。
计算机无法读懂写日期的人的想法。