(我必须处理为IE6制作的这个糟糕的供应商网站)
我正试图找到一种挖掘链接的方法。
ex:<a href="/part/id.aspx?v=449530">
,无论它出现在何处。
基本上,第一个<a>
以/part/id.aspx?v=
开头。
并提取'449530'。没有可用的id,类或任何东西,整个事情都不是有效的HTML,XHTML或XML。
与http://simplehtmldom.sourceforge.net进行对比并没有多大帮助。
任何帮助都是非常有用的。
答案 0 :(得分:1)
preg_match("(/part/id\.aspx\?v=([0-9]+))",$data,$m);
$id = $m[1];
应该这样做。
答案 1 :(得分:0)
尝试使用正则表达式查找元素:
href=\"\/part-id\.aspx\?v=(?<id>\d+)\"