是否有可能挂钩到MOSS 2007抓取过程并以编程方式填充元数据属性,因为内容正在编制索引?
我需要在抓取时执行此操作的原因是内容来自SharePoint外部(来自文件共享),因此我无法将元数据直接添加到文档本身。有各种各样的不同文档类型,因此也不能选择自定义IFilter。
答案 0 :(得分:2)
您可以尝试使用自定义协议处理程序。这允许您将元数据应用于文件,而不管其类型如何。将其与自定义内容源配对,您可以定位特定的网络共享或一组共享。
协议处理程序(和属性处理程序)上的材料可以在文件过滤开发的地方找到,但不要担心。下面的书很好地涵盖了差异。
Microsoft Windows Search 3.x SDK是一个不错的起点。它有一个示例IFilter实现,它从XML文件中捕获属性。
我发现一本有用的书是Patrick Tisseghem和Lars Fastrup撰写的“索引和搜索引擎内部:Microsoft Office SharePoint Server 2007”。第9章讨论了自定义Filter,协议处理程序甚至内容源的实现和部署。此版本的协议处理程序显示了如何捕获元数据,例如修改日期,从爬网文件系统。通过定义自定义内容源,您可以捕获文件元数据,无论文件类型如何,您都可以使用大量不同的文件类型来捕获属性。
我在IFilter development发现这个论坛/博客帖子非常好。它有几个链接到其他资源。
这篇关于writing a filter for SharePoint的MSDN文章经常被提及并且对不同方面有更好的解释,但我提到的书涵盖了更广泛的范围,即协议处理程序。
MSDN有一个很好的overview of the indexing process。