是否有任何开源库可用于搜索Deep Web?
答案 0 :(得分:3)
有一个用于元数据收集的开放档案倡议协议,它使用xml over html。你可以在http://www.openarchives.org/Register/BrowseSites
找到它深度Web(也称为Deepnet,隐形Web,黑暗Web或隐藏Web)是指万维网内容,它不是表面Web的一部分,它由标准搜索引擎索引。
商业搜索引擎已经开始探索抓取深层网络的替代方法。 Sitemap协议(最初由Google开发)和mod oai是允许搜索引擎和其他相关方在特定Web服务器上发现深层Web资源的机制。这两种机制都允许Web服务器公布可在其上访问的URL,从而允许自动发现未直接链接到表面Web的资源。 Google深层网络表面处理系统预先计算每个HTML表单的提交,并将生成的HTML页面添加到Google搜索引擎索引中。表面化结果每秒对深层Web内容进行一千次查询。在该系统中,使用三种算法完成提交的预先计算:
(1)选择接受关键字的文本搜索输入的输入值
(2)识别仅接受特定类型(例如,日期)的值的输入,以及
(3)选择少量输入组合,生成适合包含在Web搜索索引中的URL。
答案 1 :(得分:1)
如果Google无法为这些网页编制任何索引,那么您认为开源图书馆能够做到这一点的原因是什么? :)
也就是说,您的文章中有一些关于抓取深层网络的链接,这可能是开始调查的好地方。以下是其他一些内容: