我正在尝试让SharePoint 4.0.4连接器仅对SharePoint中的某些网站进行爬网。所有站点都在同一个Web应用程序中。我只想抓取一些网站而不是其他网站。
例如,假设我的SharePoint Web应用程序位于https://sharepoint1.mysite.com。然后说我有3个网站:https://sharepoint1.mysite.com/sites/a,https://sharepoint1.mysite.com/sites/b和https://sharepoint1.mysite.com/sites/c。
我会使用哪些开始和关注模式来仅抓取https://sharepoint1.mysite.com/sites/a和https://sharepoint1.mysite.com/sites/b?我不想遍历或索引https://sharepoint1.mysite.com/sites/c。
我的连接器在端口4040上名为connector.mysite.com的服务器上运行。
我找不到任何解释为SharePoint 4.0连接器设置模式的文档。我已经有了安装指南,但它根本没有讨论爬行。如果您有一些文档,请以我的方式发送。
感谢。
答案 0 :(得分:0)
如果您正在运行4.0连接器,默认情况下您必须至少指定以下关注模式:
http://connector.mysite.com:4040/doc/
最好的办法是运行具有该模式的连接器,以便从Sharepoint-repo中抓取并索引某些文件夹,之后您可以在Index Diagnostics中看到连接器构造的正确路径。之后,您可以使用正确的模式更改您的关注模式。显然,您可以从以下URL中找到有关部署连接器的信息:http://static.googleusercontent.com/media/www.google.com/nl//support/enterprise/static/gsa/docs/admin/connectors/40/404/DeployingtheConnectorforSharePoint.pdf
特别注意"部署Connector for SharePoint" 一章。祝你好运!