我正在玩弄一个想法,而我却被困在这一部分。我想阅读一个外部HTML页面,然后提取两个<dd>
标签内的数据。我一直在使用file_get_contents
取得好成绩,但我对如何完成最后一部分感到茫然。我想要从中提取值的两个标记始终包含在特定的<div>
中,想知道这是否有帮助?
在我看来,它将整个html文件读入一个字符串,然后将所有数据转储到这个特定的<div>
,并在结束</div>
之后转储所有数据。那可能吗?我认为这需要我从未使用过的正则表达式语法。所以任何提示,链接或示例都会很棒!我可以根据需要提供更多信息。
答案 0 :(得分:1)
也许这会有所帮助: http://simplehtmldom.sourceforge.net/
答案 1 :(得分:0)
你太复杂了。只需加载页面内容,然后搜索正确的正则表达式(preg_match()
)。这样做会很好
preg_match('~<tag id="foobar">(?P<content>.*?)</endtag>~is', $input, $matches);
答案 2 :(得分:0)
如果您使用HTQL COM查询页面,则查询为:&lt; dd&gt; 1:tx