Question

我正在尝试匹配PDF文档中的数据集。因为这个PDF是从OCR和PDF生成的，所以通常不会以程序可以轻松获取的方式排列数据，所以我收到的数据看起来像这样：

12/26更正卡结束于1111 427.85 3,611.31一些大道名称12/26 OFF-US ATM提取803.00 2,808.31 OAKBROOK SQUARE OFFICE PALM BCH GDNSFLUS 12/26 ATM取款419.46 2,388.85一些大道名称12/26服务费8.39 2,380.46外国交易费用12/29 OFF-US ATM取款802.50 1,577.96 THE BREAKERS PALM BCH PALM BEACH FLUS 12/30 ATM取款600.00 977.96 11111 US HWY 1，PALM BEACH，FL 12/31 ACH DEBIT 207.94 770.02 PAYBYPHONE-PYMT PHONE PYMT 1111 Dec 31 12 / 31 ACH DEBIT 138.00 632.02 BK OF AM CRD ACH PAYBYPHONE 01111111 12月31日

我正在尝试从那里提取日期，标题，两个数值，然后是可能存在或可能不存在的注释，希望用空格分隔，可能存在也可能不存在。所以我用正则表达式走了这么远：

/(\d{1,2}\/\d{1,2})\s*(.+?)\s*([\d,]+\.\d\d)\s*([\d,]+\.\d\d-?)\s*(.*?)/g

这就是实例：https://regex101.com/r/yU2bN7/1

问题是，除了评论之外，它匹配应有的一切。最后一个懒惰(.*?)没有匹配，如果我贪婪，它将匹配其他数据集，就好像它们是第一个匹配的一部分。我该如何解决这个问题？

Answer 1

为字符串结尾或下一个模式添加正向前瞻：

(?=$|\d{1,2}\/\d{1,2})

如何使这个正则表达式工作？

1 个答案: