扫描整个网站的页面以获取一段代码

时间:2013-06-22 17:11:07

标签: php

我正在运行一项服务,其中涉及网站所有者必须将一段代码放到他们的网站上。它继续在哪个页面无关紧要。

我正在寻找一种方法,使用PHP检查一段代码的给定网站URL的页面。有人能指出我正确的方向吗?

我知道如何扫描给定网址的页面,但我需要一种用PHP收集所有网页网址并搜索这些网页中的每一个网页以获取一行代码的方法。

谢谢! :)

2 个答案:

答案 0 :(得分:3)

这可以像获取HTML一样简单,cURL可以查看HTML中是否存在该特定字符串。

然而,这有真正的问题!如果您要求人们建立链接或其他东西,稍后只需设置display:none就可以很容易地使用CSS隐藏该元素。为了解决这个问题,您需要更先进的东西来实际检查项目的存在和可见性。 strpos()可以用于此目的。

现在,当人们想要使用缩小器或以其他方式修改HTML同时保持添加链接的精神时会发生什么?我建议不要查找确切的HTML,但要检查您真正想要的内容......例如您网站的反向链接。在任何情况下,您都可以使用DOM解析器来解决此问题。

答案 1 :(得分:0)

您想要解析每个页面的DOM,搜索任何链接,然后再扫描这些URL。请务必跟踪您已扫描的页面以及您需要的页面,否则您将无限循环。您还应该设置延迟,否则您可能会通过直接发送数百个请求来轻易压倒服务器。

SimpleHTMLDom给出了解析链接的示例。