我需要从HTML页面中删除以下字符串内容
<a rel="nofollow" href="http://feeds.wordpress.com/1.0/gocomments/terminaldeembarque.wordpress.com/1847/"><img alt="" border="0" src="http://feeds.wordpress.com/1.0/comments/terminaldeembarque.wordpress.com/2044/"></a>
请注意,只有数字“2044”和“1847”是变量,我可以用正则表达式吗? 任何人都可以帮我吗?
感谢。
答案 0 :(得分:1)
使用此正则表达式:
"a rel=\"nofollow\" href=\"http://feeds.wordpress.com/1.0/gocomments/terminaldeembarque.wordpress.com/[0-9]*/\"><img alt=\"\" border=\"0\" src=\"http://feeds.wordpress.com/1.0/comments/terminaldeembarque.wordpress.com/[0-9]*/\"></a>"
答案 1 :(得分:1)
取决于您是要删除所有锚标记还是仅删除特定锚标记。 您可以将整个字符串放入正则表达式(不要忘记逃避所有内容)而不是数字“2044”和“1847”使用\ d {0,}或\ d +如此:
...wordpress.com/\d+/
或
...wordpress.com/\d{0,}/
将{0,}中的零更改为要匹配的最小所需位数。 但请注意,这个正则表达式非常具体,如果一个字符与您提供的字符不同,它将会中断。例如,如果省略rel属性或html结构中的任何其他更改。
最终正则表达式:
<a rel="nofollow" href="http://feeds\.wordpress\.com/1\.0/gocomments/terminaldeembarque\.wordpress\.com/\d{0,}/"><img alt="" border="0" src="http://feeds\.wordpress\.com/1\.0/comments/terminaldeembarque\.wordpress\.com/\d{0,}/"></a>