如果不将网站范围的规则设置为“作为http内容抓取”,则无法抓取复杂的网址

时间:2010-09-13 19:50:43

标签: sharepoint search sharepoint-2010

我的网站包含一个控件,该控件使用查询字符串向用户提供动态数据(http://site/pages/example.aspx?id=1)。

只有当我创建一个将根网站(http://site/ *)设置为“包含复杂网址”和“将共享点内容抓取为http内容”的规则时,才能获取我的内容源来索引这些动态网页。这是不可接受的,因为将爬网协议从SharePoint更改为HTTP将阻止在索引项上收集任何元数据。托管元数据功能是我们的SharePoint应用程序的关键组件。

要消除任何想知道这是否只是我的配置错误,请参阅http://social.technet.microsoft.com/Forums/en-US/sharepointsearch/thread/4ff26b26-84ab-4f5f-a14a-48ab7ec121d5。提到的问题是我的确切问题,但解决方案无法使用,如前所述。

请记住,这是针对外部发布网站的,我的搜索范围正在使用内容类进行修剪,仅包含文档/页面(STS_List_850和STS_ListItem_DocumentLibrary)。创建一个新的网站内容源并将其添加到我的范围会产生两个问题:范围内的重复内容以及没有我所知道的内容类定义它。

我有哪些选择?

2 个答案:

答案 0 :(得分:1)

只是一个想法:也许你应该创建两个数据源,一个 - SharePoint - 用于元数据和项目,一个 - HTTP - 用于页面。在每个上面设置规则以排除其他内容。这会解决你的问题吗?

答案 1 :(得分:1)

我决定对这个问题采取不同的方法,因为将动态http内容和sharepoint内容组合到一个范围内是一个非常重要的问题,并且更适合于一个全新的项目而不是我试图进行的改造。

如果您有来自单个系统的动态内容,而您希望在不牺牲来自网站其余部分的SharePoint元数据信息的情况下进行抓取,则似乎唯一的选择是编写BCS应用程序/搜索连接器,分别抓取这两个内容源,将它们与范围和可能的扩展核心结果webpart结合起来。祝你好运!