阅读外部HTML页面,然后在其中查找数据

时间:2010-05-19 20:46:19

标签: php html

我正在玩弄一个想法,而我却被困在这一部分。我想阅读一个外部HTML页面,然后提取两个<dd>标签内的数据。我一直在使用file_get_contents取得好成绩,但我对如何完成最后一部分感到茫然。我想要从中提取值的两个标记始终包含在特定的<div>中,想知道这是否有帮助?

在我看来,它将整个html文件读入一个字符串,然后将所有数据转储到这个特定的<div>,并在结束</div>之后转储所有数据。那可能吗?我认为这需要我从未使用过的正则表达式语法。所以任何提示,链接或示例都会很棒!我可以根据需要提供更多信息。

3 个答案:

答案 0 :(得分:1)

也许这会有所帮助: http://simplehtmldom.sourceforge.net/

答案 1 :(得分:0)

你太复杂了。只需加载页面内容,然后搜索正确的正则表达式(preg_match())。这样做会很好

preg_match('~<tag id="foobar">(?P<content>.*?)</endtag>~is', $input, $matches);

答案 2 :(得分:0)

如果您使用HTQL COM查询页面,则查询为:&lt; dd&gt; 1:tx