我有一个HTML文件,其中包含以下内容:
<img src="MATCH1" bla="blabla">
<something:else bla="blabla" bla="bla"><something:else2 something="something">
<something image="MATCH2" bla="abc">
现在我需要一个正则表达式匹配MATCH1和MATCH2
此外,HTML包含多个这样的部分,因此它可以在HTML的1,2,3中进行x次..
当我说:
<img\s*src="(.*?)".*?<something\s*image="(.*?)"
它与之不符。我在这里缺少什么?
提前致谢!
答案 0 :(得分:10)
Regex does not always provide perfect result while parsing HTML.
我认为你应该使用HTML DOM Parser
来做例如:
// Create DOM from URL or file
$html = file_get_html('http://www.example.com/');
// OR Create a DOM object from a HTML file
$html = file_get_html('test.htm');
// Find all images
foreach($html->find('img') as $element)
echo $element->src . '<br>';
// Find all links
foreach($html->find('a') as $element)
echo $element->href . '<br>';
有些过滤器可以获取具有特定属性的标记:
[attribute] 匹配具有的元素 指定的属性。
[attribute = value] 匹配元素 具有指定属性的 一定的价值。
[attribute!= value] 匹配元素 没有指定的 具有特定值的属性。
[attribute ^ = value] 匹配元素 具有指定属性和 它以某个值开始。
[attribute $ = value] 匹配元素 具有指定属性和 它以某个值结束。
[attribute * = value] 匹配元素 具有指定属性和 它包含一定的值。
还有一些其他解析工具可以解析HTML,如this answer中所述。
答案 1 :(得分:2)
使用phpQuery或QueryPath进行此类任务大多简单:
qp($html)->find("img")->attr("src");
但如果你不忽视细节,那么正则表达式也是可能的:
preg_match('#<img[^>]+src="([^">]*)".+?<something\s[^>]*image="([^">]*)"#ims', $html, $m);
如果提取取决于两个标签的存在,那么这可能是更好的选择。