共享点搜索外部RSS源

时间:2009-06-08 20:30:00

标签: sharepoint search rss feed

我希望我的sharepoint网站允许用户搜索已知RSS源集合中的内容。从概念上讲,我认为有几种方法可以做到这一点

  • 在源头抓取Feed(Yikes!)
  • 将完整文章拉入我的sharepoint网站,然后让我的抓取工具抓取它
  • 利用现有索引(如谷歌)
  • 使用google实用程序(我的偏好)
  • 按需搜索完整文章

我可以以某种方式,从我的sharepoint网站,允许用户搜索来自几十个名为rss feed的完整文章

感谢

卡里

2 个答案:

答案 0 :(得分:1)

我不明白为什么在源头抓取Feed时出现问题?这似乎是合理的。

创建内容源以指向Feed并选择正确的索引计划相当容易。如果这不起作用,那么你可以尝试更复杂的方法。

请注意,将其他网站的内容复制到您自己的主机上可能会产生版权影响(不要太提及任何煽动性内容似乎会在您自己的网站上发布的风险)。

- 更新 -

尝试阅读目标网站robots.txt,看看它是否(甚至有一个)它具有所需的频率。否则,它取决于您要抓取的网站的深度。

如果你只是抓取rss feed xml,我怀疑你可以每小时都这样做,而不会让任何人烦恼。否则,如果您涉及每篇文章,您可能希望限制它。这实际上很大程度上取决于您与目标网站和您正在访问的网站类型之间的任何关系。

结帐this article以获取有关SharePoint如何处理robots.txt

的更多信息

(p.s。目标网站没有把文章放在网上,所以没有人会阅读它们)

答案 1 :(得分:0)

开箱即用的抓取工具将尊重robots.txt,并且存在爬虫影响规则的规定,这将减少SharePoint在外部网站上执行节拍的可能性。