我正在寻找一个PHP网络爬虫来收集大型网站的所有链接,并告诉我这些链接是否已损坏。
到目前为止,我已经尝试过在这里修改一个例子。 My question about the code我也尝试过抓取phpDig,但该网站已关闭。任何关于我应该如何进行的建议都会很棒。
修改
问题不在于抓住链接的规模问题我不确定我修改的脚本是否足以抓住可能成千上万的URL,因为我尝试将搜索链接的深度设置为4,爬虫通过浏览器超时。其他人提到有关杀死进程的事情,以免服务器过载,有人可以详细说明这个问题。
答案 0 :(得分:0)
不是一个现成的解决方案,但Simple HTML Dom解析器是我最喜欢的dom解析器之一。
它允许您使用CSS选择器在文档上查找节点,因此您可以轻松找到<a href="">
的。
使用这些超链接,您可以构建自己的爬虫,并检查页面是否仍然可用。