使Search Server忽略sharepoint文档数据,并加快爬网时间

时间:2013-06-17 22:04:19

标签: sharepoint-2010 search-server-2010

背景:

我有一个Sharepoint Foundation 2010安装,用于存储纸质文档的扫描图像,制作我们为每个公司客户保留的纸质文件夹的电子版本。所有文档都存储为PDF文件。

配置包括一个包含Sharepoint和Search Server 2010 Express服务的Web服务器,以及容纳内容数据和搜索爬网存储的单独数据库服务器。 Sharepoint / Search框和SQL框都是在共享主机(包括共享SAN)上运行的VMware VM与我们的其他生产服务器。

必须通过自定义界面添加添加到sharepoint的每个文件,包括客户端信息的元数据标记(具有一组网站列的网站内容类型定义此额外元数据)。然后,我们通过设置托管属性向搜索服务器公开此客户端识别数据,以便我们可以针对指定WHERE CustomClientID = X的搜索Web服务进行查询。

我们的数据目前存在于两个大型文档库中,每个文档库都有一个。

经过几年的运营,我们的服务器现在有大约250,000个文件,我们遇到完全爬行的问题(每周运行一小时)有时会崩溃,而我们的增量(在工作时间每5分钟运行一次)需要7个-8分钟拿起2-3个新文件。

问题:

我想知道是否有办法让搜索服务器抓取工具只获取我们提供的元数据并完全忽略文档内容,我认为这会加快爬网过程的数量级。我相信这个功能被描述为全文搜索,但是没有成功找到任何可以解释这是否可以关闭的东西。

如果没有,是否有其他方法可以加快抓取时间,任何人都会建议?

0 个答案:

没有答案