web - 仅像搜索引擎那样获取网站详细信息 - Thinbug

仅像搜索引擎那样获取网站详细信息

时间：2011-07-05 11:23:09

标签： web search-engine web-crawler

我必须像搜索引擎那样获取网站详细信息。我需要网站的描述，链接和有关它们的一些信息，并将其存储在我的数据库中。有没有可用的库？请记住，我可以抓取整个网页，但我只需要搜索引擎抓取格式的信息。

谢谢，
KARTHIK

1 个答案:

答案 0 :(得分：1)

哪种语言？存在用于阅读网页内容的API和绑定。如果你想创建一个新的“搜索引擎”，你是否意识到任务的规模？你的问题是如此通用，除了：

之外，没有很多建议可以给出

尊重robots.txt

不要对服务器发出请求，你很快就会被敏感的系统管理员阻止你的IP。