我有一个html文件,其中包含一个信息表,我正在尝试提取特定的列。模式是这样的,交替的“TableDarkRow”和“TableLightRow”:
'>817338284254611</A></td><td Class='TableDarkRow' NOWRAP> 01/14/2011</td>
我正在尝试提取一组数字和日期对:
817338284254611
01/14/2011
我试过并想出了这个:
>([0-9])+</A>(.*)NOWRAP> ?([0-9]{2}\/[0-9]{2}\/[0-9]{4})
但是(.*)
允许在第一次和最后一次出现之间选择整个文档。
答案 0 :(得分:1)
将.*
替换为.*?
以进行非贪婪匹配。
答案 1 :(得分:0)
试试这个(尚未测试):
/[0-9\/ ]+/
答案 2 :(得分:0)
您可以将.*
替换为`[A-Za-z'&lt;&gt; \吨] +”。