查找所有出现的字符串(找到的最后一个除外),然后将其删除

时间:2019-12-19 21:54:58

标签: regex google-apps-script ocr google-docs text-manipulation

我正在使用Google文档打开我通过电子邮件发送给自己的沃尔玛收据。我使用99.9%的时间的沃尔玛商店似乎已对Ingenico POS终端进行了一些固件更新,从而在扫描仪识别出每一项之后显示了正在运行的小计。这是支持我的问题的一些图片。

POS终端如下:

enter image description here

第二张图片是电子收据,我从他们的IOS应用中通过电子邮件发送给自己。大概是从POS终端获取的,因为它在POS终端屏幕之类的每个项目之后都有多余的SUBTOTAL行。它已经这样做了几个月,而我也没有理由相信管理层会尽快纠正它。

enter image description here

最终的图像是我的实际纸质收据。这是从收银机上打印出来的,它是您随身带走的收据,并向迎宾员/退出者显示检查您的越野车和您所需要的物品。已购买。

请注意,它没有显示多余的小计。

enter image description here

我在Google文档中打开电子收据,他们的自动OCR会弹出收据文本。它做得很好,我说这些收据的准确率超过95%。我使用了一个非常粗糙的小正则表达式,将这些电子收据重新格式化,以便我可以将它们输入数据库,并将该数据用于家庭的预算,税金等。尽管我想进一步自动化该过程,但这对我来说一直很好,但这也许有一天是一个不同的问题。

现在,那个小的粗制正则表达式不再将收据格式化为对我有用的东西。

我想做的是从(破损的)电子收据中删除多余的小计,但不要留下最后一个小计。我突出显示了收据上的最后一个小计,它始终存在并且应该保留。

我看到了另外两个相似的问题,但是我无法将它们应用于我的情况。其中之一是: Remove all occurrences except the last one

我尝试了什么?

以下正则表达式可在regex101.com的在线测试仪中使用:

\nSUBTOTAL\t\d{1,3}(?:[.,]\d{3})*(?:[.,]\d{2})

我花了一段时间才从搜索中找到该正则表达式,但从本质上讲,我希望它能找到所有SUBTOTAL文字和前面的换行符以及从0.01到999.99之间的任何十进制数字),而我只想用换行替换找到的内容,然后我可以允许其他正则表达式创建像在固件更新到POS终端之前一样处理。

regex可以正确识别regex101.com网站上的每个小计(包括最后一个小计)。我可以用“ \ n”代替,回到可以使用的收据数据,但是有两个问题:

1)我无法使用Google Apps脚本进行复制。 这是我的示例:

function myFunction() {
  var body = DocumentApp.getActiveDocument().getBody();
  var newText = body.getText()
    .match('\nSUBTOTAL\t\d{1,3}(?:[.,]\d{3})*(?:[.,]\d{2})')[1]
    .replace(/%/mgi, "%\n");
  body.clear();
  body.setText(newText);
}

2)如果要使以上代码正常工作,我仍然想保留最后一个SUBTOTAL的问题。

以下是我设置的Google文档,可以尝试: https://docs.google.com/document/d/11bOJp2rmWJkvPG1FCAGsQ_n7MqTmsEdhDQtDXDY-52s/edit?usp=sharing

1 个答案:

答案 0 :(得分:3)

我使用这个常规表达式。

// JavaScript Syntax
'/\nSUBTOTAL\s\d{1,3}\.\d{2}| SUBTOTAL\n\d{1,3}\.\d{2}/g'

我也为Google文档制作了脚本。您可以使用此Google Doc并查看结果。

function deleting_subs() {
  var body = DocumentApp.getActiveDocument().getBody();
  var newText = body.getText();

  var out = newText.replace(/\nSUBTOTAL\s\d{1,3}\.\d{2}|` SUBTOTAL\n\d{1,3}\.\d{2}/g, '');

  // This is need to become more readable the resulting text.
  out = out.replace(/R /g, 'R\n');

  body.clear();
  body.setText(out);
}

要执行脚本,请打开google doc文件,然后单击:

  • 附加项。
  • Del_subs->删除订阅。

提示:在执行(补充删除项)的补充/添加后,撤消文档版本,这样其他用户可以返回到文本的先前版本。

希望对您有帮助。

相关问题