我尝试使用XPath string-after
来获取属性ID之后的数据:但结果不是我想要的。它显示了与Property ID匹配的所有结果。我只想要P-000324
。这是我的代码
<?php
$getURL = file_get_contents('http://realestate.com.kh/residential-for-rent-in-phnom-penh-daun-penh-phsar-chas-2-beds-apartment-1001192296/');
$dom = new DOMDocument();
@$dom->loadHTML($getURL);
$xpath = new DOMXPath($dom);
echo $xpath->evaluate("normalize-space(substring-after(., 'Property ID:'))");
那么我怎样才能让只获得一个第一个结果?
答案 0 :(得分:4)
您可以更改XPath表达式,使用位置索引(-sourceLevel 1.8
选择包含p
的{{1}}的仅第一次出现后的字符串Property ID:
)。
例如,以下XPath表达式将仅选择直接包含字符串'Property ID:'的第一个段落:
[1]
将此与您的请求放在一起,只返回“Property ID:”后面的字符串,但不包括(//p[contains(text(),'Property ID:')])[1]
字符串之外的任何内容:
P-000324
将按照要求回复echo $xpath->evaluate("normalize-space(substring-before(substring-after((//p[contains(text(),'Property ID:')])[1], 'Property ID:'), '–'))");
。
更新:这解决了最初提供的原始网页的问题,但目标似乎更广泛。更健壮的解决方案是仅使用第一个表达式来获取包含“Property ID”的第一个段落的字符串,然后在属性id的正常形式上的标签之后立即执行正则表达式模式匹配,或者围绕属性id的正常形式的分隔符。您将不得不使用托管语言的正则表达式工具,因为XPath 1.0的字符串处理功能非常有限; XPath 2.0更好,包括正则表达式功能。