我正在使用Google文档打开我通过电子邮件发送给自己的沃尔玛收据。我使用99.9%的时间的沃尔玛商店似乎已对Ingenico POS终端进行了一些固件更新,从而在扫描仪识别出每一项之后显示了正在运行的小计。这是支持我的问题的一些图片。
POS终端如下:
第二张图片是电子收据,我从他们的IOS应用中通过电子邮件发送给自己。大概是从POS终端获取的,因为它在POS终端屏幕之类的每个项目之后都有多余的SUBTOTAL行。它已经这样做了几个月,而我也没有理由相信管理层会尽快纠正它。
最终的图像是我的实际纸质收据。这是从收银机上打印出来的,它是您随身带走的收据,并向迎宾员/退出者显示检查您的越野车和您所需要的物品。已购买。
请注意,它没有显示多余的小计。
我在Google文档中打开电子收据,他们的自动OCR会弹出收据文本。它做得很好,我说这些收据的准确率超过95%。我使用了一个非常粗糙的小正则表达式,将这些电子收据重新格式化,以便我可以将它们输入数据库,并将该数据用于家庭的预算,税金等。尽管我想进一步自动化该过程,但这对我来说一直很好,但这也许有一天是一个不同的问题。
现在,那个小的粗制正则表达式不再将收据格式化为对我有用的东西。
我想做的是从(破损的)电子收据中删除多余的小计,但不要留下最后一个小计。我突出显示了收据上的最后一个小计,它始终存在并且应该保留。
我看到了另外两个相似的问题,但是我无法将它们应用于我的情况。其中之一是: Remove all occurrences except the last one
我尝试了什么?
以下正则表达式可在regex101.com的在线测试仪中使用:
\nSUBTOTAL\t\d{1,3}(?:[.,]\d{3})*(?:[.,]\d{2})
我花了一段时间才从搜索中找到该正则表达式,但从本质上讲,我希望它能找到所有SUBTOTAL文字和前面的换行符以及从0.01到999.99之间的任何十进制数字),而我只想用换行替换找到的内容,然后我可以允许其他正则表达式创建像在固件更新到POS终端之前一样处理。
regex可以正确识别regex101.com网站上的每个小计(包括最后一个小计)。我可以用“ \ n”代替,回到可以使用的收据数据,但是有两个问题:
1)我无法使用Google Apps脚本进行复制。 这是我的示例:
function myFunction() {
var body = DocumentApp.getActiveDocument().getBody();
var newText = body.getText()
.match('\nSUBTOTAL\t\d{1,3}(?:[.,]\d{3})*(?:[.,]\d{2})')[1]
.replace(/%/mgi, "%\n");
body.clear();
body.setText(newText);
}
2)如果要使以上代码正常工作,我仍然想保留最后一个SUBTOTAL的问题。
以下是我设置的Google文档,可以尝试: https://docs.google.com/document/d/11bOJp2rmWJkvPG1FCAGsQ_n7MqTmsEdhDQtDXDY-52s/edit?usp=sharing
答案 0 :(得分:3)
我使用这个常规表达式。
// JavaScript Syntax
'/\nSUBTOTAL\s\d{1,3}\.\d{2}| SUBTOTAL\n\d{1,3}\.\d{2}/g'
我也为Google文档制作了脚本。您可以使用此Google Doc并查看结果。
function deleting_subs() {
var body = DocumentApp.getActiveDocument().getBody();
var newText = body.getText();
var out = newText.replace(/\nSUBTOTAL\s\d{1,3}\.\d{2}|` SUBTOTAL\n\d{1,3}\.\d{2}/g, '');
// This is need to become more readable the resulting text.
out = out.replace(/R /g, 'R\n');
body.clear();
body.setText(out);
}
要执行脚本,请打开google doc文件,然后单击:
提示:在执行(补充删除项)的补充/添加后,撤消文档版本,这样其他用户可以返回到文本的先前版本。
希望对您有帮助。