应用错误收集

时间：2010-11-23 08:27:03

标签： search-engine web-crawler

有没有办法收集网页内容，以便在不经过网络抓取阶段的情况下在搜索引擎中使用它？网络抓取的替代方法吗？

谢谢

答案 0 :(得分：5)

不，要收集您必须收集的内容......收集内容。： - ）

答案 1 :(得分：3)

是（并且没有）。

：）

您可以从各种网站（维基百科，堆栈溢出等）下载现有数据转储，并以此方式构建部分索引。它显然不会是互联网的完整索引。

您还可以使用元搜索来构建搜索引擎。您可以在此处使用其他搜索引擎的API，并使用他们的搜索结果作为索引的基础。示例包括citosearch和opensearch。 duckduckgo使用yahoo's boss api（现在雅虎使用bing ......）作为搜索引擎的一部分。

您还可以使用实时流式API，而不是抓取网络。以datasift为例。您可以巧妙地使用更多资源并避免/最小化抓取。

答案 2 :(得分：2)

如果您希望使用页面上的最新内容进行更新，则可以使用pubsubhubbub协议之类的内容来获取订阅链接的推送通知。或者使用像superfeedr这样使用相同协议的付费服务。

答案 3 :(得分：1)

直接或间接地，您必须抓取网络才能获取内容。

答案 4 :(得分：0)

如果您不想抓取，可以遵循类似wiki的方法，用户可以在其中提交指向网站的链接（包含标题，说明和标签）。因此可以构建协作链接集合。

为了避免垃圾邮件，可能会涉及+ / - 系统，投票使用有用的网站或标签以及无用的网站。

为避免垃圾邮件发送者群体投票SERP，您可以按用户声誉加权投票。

通过提交有用的网站可以获得用户声誉。或以某种方式追踪使用模式。

并考虑其他滥用模式。

嗯，我认为你明白了。

随着垃圾邮件发送者逐渐发现传统搜索引擎的弱点（请参阅Google bomb，内容抓取网站等），基于社区的方法可能会起作用。但它会受到cold start效应的严重影响，当社区规模较小时，系统容易被滥用和毒害......

至少维基百科和Stack Exchange到目前为止还没有被垃圾邮件发送到无用的级别......