Question

我有一个html文件，其中包含一个信息表，我正在尝试提取特定的列。模式是这样的，交替的“TableDarkRow”和“TableLightRow”：

'>817338284254611</A></td><td Class='TableDarkRow' NOWRAP> 01/14/2011</td>

我正在尝试提取一组数字和日期对：

817338284254611
01/14/2011

我试过并想出了这个：

>([0-9])+</A>(.*)NOWRAP> ?([0-9]{2}\/[0-9]{2}\/[0-9]{4})

但是(.*)允许在第一次和最后一次出现之间选择整个文档。

Answer 1

将.*替换为.*?以进行非贪婪匹配。

Answer 2

试试这个（尚未测试）：

/[0-9\/ ]+/

Answer 3

您可以将.*替换为`[A-Za-z'＆lt;＆gt; \吨] +”。