仅像搜索引擎那样获取网站详细信息

时间:2011-07-05 11:23:09

标签: web search-engine web-crawler

我必须像搜索引擎那样获取网站详细信息。我需要网站的描述,链接和有关它们的一些信息,并将其存储在我的数据库中。有没有可用的库?请记住,我可以抓取整个网页,但我只需要搜索引擎抓取格式的信息。

谢谢,
KARTHIK

1 个答案:

答案 0 :(得分:1)

哪种语言?存在用于阅读网页内容的API和绑定。如果你想创建一个新的“搜索引擎”,你是否意识到任务的规模?你的问题是如此通用,除了:

之外,没有很多建议可以给出

尊重robots.txt

不要对服务器发出请求,你很快就会被敏感的系统管理员阻止你的IP。