给定URL查找联系人链接

时间:2012-12-11 22:27:24

标签: php regex html-parsing web-scraping

我有一个网址,我必须在网址中找到一个联系人链接。

所以我所做的是使用simple_html_dom.php循环遍历所有标签,如果它包含单词“contact”或“advertis”,那么它就是联系人网址。但实际上这很慢。

所以我现在想要做的是使用curl刮掉页面(没问题,甚至将来会出现多卷曲)并且如果链接包含“联系人”或者链接,请使用正则表达式在scrape结果中找到aa href链接“advertis”。

我会使用preg_match_all,但正则表达式是什么?

1 个答案:

答案 0 :(得分:1)

preg_match_all('/\<a href\=\"(.*?(contact|advertis)+.*?)\"\>(.+?)\<\/a>/m', $page, $matches);