大约两天我收到了使用DOM文档而不是正则表达式的建议
我仍然不知道如何正确使用查询
在下面的链接中是“TERRITÓRIOEAMBIENTE”的会话,我想得到下面4行的内容
https://cidades.ibge.gov.br/brasil/sp/sao-paulo/panorama
$html = file_get_contents( 'https://cidades.ibge.gov.br/brasil/sp/sao-paulo/panorama' );
$document = new DOMDocument();
$document->loadHTML(mb_convert_encoding($html, 'HTML-ENTITIES', 'UTF-8'));
$domxpath = new DOMXPath($document);
$paragraphs = $domxpath->query('
//th[*[
contains(text(), "TERRITÓRIO E AMBIENTE")
]
]
/following-sibling::tr[
position() = 12
]'
);
我把12 <tr>
的数量放了,因为这是源代码中出现的内容,但我不知道我是否正确地执行此查询,这对我来说是出现这些错误
Warning: DOMDocument::loadHTML(): Tag app invalid in Entity, line: 25
Warning: DOMDocument::loadHTML(): Misplaced DOCTYPE declaration in Entity, line: 25
Warning: DOMDocument::loadHTML(): htmlParseStartTag: misplaced <html> tag in Entity, line: 25
感谢
答案 0 :(得分:1)
您的代码中存在多个问题。
的
@$document->loadHTML($html);
的
//th[contains(text(), "Território e Ambiente")]/parent::tr/following-sibling::tr[1]/td[3]
获取包含文字th
的{{1}}元素,然后获取父Território e Ambiente
标记,然后转到下一个tr
兄弟,最后获得第三个tr
{1}}元素(值为)。仍然非常脆弱,但要密切关注网站的变化,它不太可能改变。
所以现在你需要重复那个XPath查询3次,更改第n td
个兄弟(添加两个,因为每个中间都有一个空元素)。最终看起来像这样:
tr
第一名:1.521,110平方公里 第二:92.6%
第三:74,8%
第四:50,3%
注意使用$document = new DOMDocument();
@$document->loadHTML($html);
$domxpath = new DOMXPath($document);
$paragraphs = $domxpath->query('//th[contains(text(), "Território e Ambiente")]/parent::tr/following-sibling::tr[1]/td[3]');
echo "First: ".preg_replace('/\s+/', ' ', $paragraphs[0]->nodeValue);
echo "<br>";
$paragraphs = $domxpath->query('//th[contains(text(), "Território e Ambiente")]/parent::tr/following-sibling::tr[3]/td[3]');
echo "Second: ".preg_replace('/\s+/', ' ', $paragraphs[0]->nodeValue);
echo "<br>";
$paragraphs = $domxpath->query('//th[contains(text(), "Território e Ambiente")]/parent::tr/following-sibling::tr[5]/td[3]');
echo "Third: ".preg_replace('/\s+/', ' ', $paragraphs[0]->nodeValue);
echo "<br>";
$paragraphs = $domxpath->query('//th[contains(text(), "Território e Ambiente")]/parent::tr/following-sibling::tr[7]/td[3]');
echo "Fourth: ".preg_replace('/\s+/', ' ', $paragraphs[0]->nodeValue);
来消除丰富的空白。
使用更多的XPath魔法我们可以让它只使用一个查询:
preg_replace()
与其他人一样工作,但不是获得特定的//th[contains(text(), "Território e Ambiente")]/parent::tr/following-sibling::tr[position() mod 2 = 1]/td[3]
兄弟元素,而是获取其他所有元素。
tr