网页抓取搜索结果

时间:2011-07-27 01:00:03

标签: web-scraping search-engine google-search

我需要帮助解决以下问题:

我需要通过Google搜索引擎验证特定网站的缓存网址。如果url将404或页面将不会呈现一些必要的html元素(被视为已损坏),我需要记录这些URL,然后将301重定向到正确的URL。我知道PHP和一些Python,但我不确定使用什么方法从给定站点的搜索引擎结果中删除所有URL。

1 个答案:

答案 0 :(得分:0)

http://simplehtmldom.sourceforge.net/ - 一个简单的html解析器。这个页面有一个例子;不确定这是否仍适用于谷歌即时搜索等。