在Sharepoint中搜索日期元标记

时间:2008-10-03 10:06:06

标签: sharepoint search

我目前正在寻找从Sharepoint索引ASP网站,我需要复制用户熟悉的旧“高级搜索”架构。为了做到这一点,我需要从网页索引一些元标记。这很容易完成,对于文本字段,我也可以在搜索中使用它们。但是对于日期元标记,例如“过期”或“已发布”,我遇到了一些问题。问题基本上是元标记被抓取为“文本”,但我需要Sharepoint将它们解析为日期时间。我在TechNet上看过一些帖子,要求相同,但没有答案。

1https://forums.microsoft.com/TechNet/ShowPost.aspx?PostID=2614064&SiteID=17 TechNet

2 个答案:

答案 0 :(得分:3)

你没有做错任何事,这就是产品的运作方式。要添加到前面所说的内容,定制起来并不容易。

解决此问题的正确方法是为HTML创建自定义协议处理程序。这是一个实现一些接口的自定义COM对象。 MOSS 2007 SDK具有协议处理程序引用。

当我们这样做时,我们创建了一个ini文件,因此我们可以定义我们想要的META字段被抓取的类型(String,Int,DateTime)。然后,当您添加自定义属性时,所有内容都已正确解析。然后,您可以像平常一样使用自定义属性。

答案 1 :(得分:1)

搜索中内置的网络抓取工具是基本的,您将无法轻松扩展它以包含元标记。据称,您可以编写自己的协议处理程序并在自己的内容源中抓取ASP页面;据说那是有效的。我认为没有人真正编写自己的协议处理程序。

你会对SharePoint抓取工具提供的内容感到失望,这就是官方论坛上没有答案的原因 - 因为真正的答案是“不能轻易做到,抱歉。”

您可以通过编写自定义Web服务(ASMX或基于WCF)自行抓取ASP页面的元标记来破解某些内容。从那里,您可以将Web服务结果拉入可搜索的BDC,然后在搜索结果/ BDC数据中,您可以链接到原始页面。我知道,它就像一个Rube Goldberg设备,但是当我说它比找出如何编写协议处理程序更容易时,相信我。