open-source - 是否有可用于搜索Deep Web的开源库？

有一个用于元数据收集的开放档案倡议协议，它使用xml over html。你可以在http://www.openarchives.org/Register/BrowseSites

找到它

深度Web（也称为Deepnet，隐形Web，黑暗Web或隐藏Web）是指万维网内容，它不是表面Web的一部分，它由标准搜索引擎索引。

商业搜索引擎已经开始探索抓取深层网络的替代方法。 Sitemap协议（最初由Google开发）和mod oai是允许搜索引擎和其他相关方在特定Web服务器上发现深层Web资源的机制。这两种机制都允许Web服务器公布可在其上访问的URL，从而允许自动发现未直接链接到表面Web的资源。 Google深层网络表面处理系统预先计算每个HTML表单的提交，并将生成的HTML页面添加到Google搜索引擎索引中。表面化结果每秒对深层Web内容进行一千次查询。在该系统中，使用三种算法完成提交的预先计算：

（1）选择接受关键字的文本搜索输入的输入值

（2）识别仅接受特定类型（例如，日期）的值的输入，以及

（3）选择少量输入组合，生成适合包含在Web搜索索引中的URL。

如果Google无法为这些网页编制任何索引，那么您认为开源图书馆能够做到这一点的原因是什么？ :)

也就是说，您的文章中有一些关于抓取深层网络的链接，这可能是开始调查的好地方。以下是其他一些内容：

Deep Web Research有很多有用的参考资料。
deepwebtech.com声称拥有一个深度网络搜索引擎，虽然现在已经停止了。

是否有可用于搜索Deep Web的开源库？

2 个答案: