有没有办法收集网页内容,以便在不经过网络抓取阶段的情况下在搜索引擎中使用它?网络抓取的替代方法吗?
谢谢
答案 0 :(得分:5)
不,要收集您必须收集的内容......收集内容。 : - )
答案 1 :(得分:3)
是(并且没有)。
:)
您可以从各种网站(维基百科,堆栈溢出等)下载现有数据转储,并以此方式构建部分索引。它显然不会是互联网的完整索引。
您还可以使用元搜索来构建搜索引擎。您可以在此处使用其他搜索引擎的API,并使用他们的搜索结果作为索引的基础。示例包括citosearch和opensearch。 duckduckgo使用yahoo's boss api(现在雅虎使用bing ......)作为搜索引擎的一部分。
您还可以使用实时流式API,而不是抓取网络。以datasift为例。您可以巧妙地使用更多资源并避免/最小化抓取。
答案 2 :(得分:2)
如果您希望使用页面上的最新内容进行更新,则可以使用pubsubhubbub协议之类的内容来获取订阅链接的推送通知。 或者使用像superfeedr这样使用相同协议的付费服务。
答案 3 :(得分:1)
直接或间接地,您必须抓取网络才能获取内容。
答案 4 :(得分:0)
如果您不想抓取,可以遵循类似wiki的方法,用户可以在其中提交指向网站的链接(包含标题,说明和标签)。因此可以构建协作链接集合。
为了避免垃圾邮件,可能会涉及+ / - 系统,投票使用有用的网站或标签以及无用的网站。
为避免垃圾邮件发送者群体投票SERP,您可以按用户声誉加权投票。
通过提交有用的网站可以获得用户声誉。或以某种方式追踪使用模式。
并考虑其他滥用模式。
嗯,我认为你明白了。
随着垃圾邮件发送者逐渐发现传统搜索引擎的弱点(请参阅Google bomb,内容抓取网站等),基于社区的方法可能会起作用。但它会受到cold start效应的严重影响,当社区规模较小时,系统容易被滥用和毒害......
至少维基百科和Stack Exchange到目前为止还没有被垃圾邮件发送到无用的级别......