是否有可用于搜索Deep Web的开源库?

时间:2009-11-30 21:57:46

标签: open-source deep-web

是否有任何开源库可用于搜索Deep Web

2 个答案:

答案 0 :(得分:3)

有一个用于元数据收集的开放档案倡议协议,它使用xml over html。你可以在http://www.openarchives.org/Register/BrowseSites

找到它

深度Web(也称为Deepnet,隐形Web,黑暗Web或隐藏Web)是指万维网内容,它不是表面Web的一部分,它由标准搜索引擎索引。

商业搜索引擎已经开始探索抓取深层网络的替代方法。 Sitemap协议(最初由Google开发)和mod oai是允许搜索引擎和其他相关方在特定Web服务器上发现深层Web资源的机制。这两种机制都允许Web服务器公布可在其上访问的URL,从而允许自动发现未直接链接到表面Web的资源。 Google深层网络表面处理系统预先计算每个HTML表单的提交,并将生成的HTML页面添加到Google搜索引擎索引中。表面化结果每秒对深层Web内容进行一千次查询。在该系统中,使用三种算法完成提交的预先计算:

(1)选择接受关键字的文本搜索输入的输入值

(2)识别仅接受特定类型(例如,日期)的值的输入,以及

(3)选择少量输入组合,生成适合包含在Web搜索索引中的URL。

答案 1 :(得分:1)

如果Google无法为这些网页编制任何索引,那么您认为开源图书馆能够做到这一点的原因是什么? :)

也就是说,您的文章中有一些关于抓取深层网络的链接,这可能是开始调查的好地方。以下是其他一些内容: