使用正则表达式从文件中提取信息并需要帮助

时间:2011-01-14 19:59:06

标签: html regex

我有一个html文件,其中包含一个信息表,我正在尝试提取特定的列。模式是这样的,交替的“TableDarkRow”和“TableLightRow”:

'>817338284254611</A></td><td Class='TableDarkRow' NOWRAP> 01/14/2011</td>

我正在尝试提取一组数字和日期对:

817338284254611
01/14/2011

我试过并想出了这个:

>([0-9])+</A>(.*)NOWRAP> ?([0-9]{2}\/[0-9]{2}\/[0-9]{4})

但是(.*)允许在第一次和最后一次出现之间选择整个文档。

3 个答案:

答案 0 :(得分:1)

.*替换为.*?以进行非贪婪匹配。

参考:Watch Out for The Greediness!

答案 1 :(得分:0)

试试这个(尚未测试):

/[0-9\/ ]+/

答案 2 :(得分:0)

您可以将.*替换为`[A-Za-z'&lt;&gt; \吨] +”。