搜索引擎没有抓取?

时间:2010-11-23 08:27:03

标签: search-engine web-crawler

有没有办法收集网页内容,以便在不经过网络抓取阶段的情况下在搜索引擎中使用它?网络抓取的替代方法吗?

谢谢

5 个答案:

答案 0 :(得分:5)

不,要收集您必须收集的内容......收集内容。 : - )

答案 1 :(得分:3)

是(并且没有)。

:)

您可以从各种网站(维基百科,堆栈溢出等)下载现有数据转储,并以此方式构建部分索引。它显然不会是互联网的完整索引。

您还可以使用元搜索来构建搜索引擎。您可以在此处使用其他搜索引擎的API,并使用他们的搜索结果作为索引的基础。示例包括citosearchopensearch。 duckduckgo使用yahoo's boss api(现在雅虎使用bing ......)作为搜索引擎的一部分。

您还可以使用实时流式API,而不是抓取网络。以datasift为例。您可以巧妙地使用更多资源并避免/最小化抓取。

答案 2 :(得分:2)

如果您希望使用页面上的最新内容进行更新,则可以使用pubsubhubbub协议之类的内容来获取订阅链接的推送通知。 或者使用像superfeedr这样使用相同协议的付费服务。

答案 3 :(得分:1)

直接或间接地,您必须抓取网络才能获取内容。

答案 4 :(得分:0)

如果您不想抓取,可以遵循类似wiki的方法,用户可以在其中提交指向网站的链接(包含标题,说明和标签)。因此可以构建协作链接集合。

为了避免垃圾邮件,可能会涉及+ / - 系统,投票使用有用的网站或标签以及无用的网站。

为避免垃圾邮件发送者群体投票SERP,您可以按用户声誉加权投票。

通过提交有用的网站可以获得用户声誉。或以某种方式追踪使用模式。

并考虑其他滥用模式。

嗯,我认为你明白了。

随着垃圾邮件发送者逐渐发现传统搜索引擎的弱点(请参阅Google bomb,内容抓取网站等),基于社区的方法可能会起作用。但它会受到cold start效应的严重影响,当社区规模较小时,系统容易被滥用和毒害......

至少维基百科和Stack Exchange到目前为止还没有被垃圾邮件发送到无用的级别......

PS:http://xkcd.com/810/