MOSS 2007抓取

时间:2008-09-19 11:25:07

标签: sharepoint search

我正试图爬上我在两个独立的农场上工作,但无法让它在任何一个上工作。它们都有两个WFE,另外一个WFE配置为索引服务器。还有一个专用于Query的服务器和两个用于数据库的集群SQL 2005后端服务器。我用搜索引擎的解决方案尝试了至少50个不同的网站,但未成功。我已配置(扩展)我的Web App以使用http://servername:12345作为默认区域,http://abc.companyname.com作为自定义和Intranet区域。当我将每个内容输入内容源然后尝试运行爬网时,我在抓取日志中收到了一些错误:

http://servername:12345返回:
“无法连接到服务器。请确保该网站可以访问。”

http://abc.companyname.com返回:
“由收集者删除。(包含此项目的起始地址或内容源已删除,因此该项目已删除。”“

但是,我可以点击两个网址,并且页面可以访问。

有什么想法吗?


更多信息:

我擦干净的石板,可以这么说,并再次爬行以提供更新的样本。

我的内容来源如下:

http://servername:33333
http://sharepoint.portal.fake.com
SPS3://服务器:33333

我当前的抓取日志错误是:

SPS3://服务器:33333个
PortalCrawl Web服务中出错。

http://servername:33333/mysites
服务器排除此URL的内容,因为没有索引属性。

http://servername:33333/mysites
爬取

STS3://服务器:33333 / contentdbid = {62a647a ...
爬取

STS3://服务器:33333
爬取

http://servername:33333
爬取

http://sharepoint.portal.fake.com
Crawler无法与服务器通信。检查服务器是否可用以及是否正确配置了防火墙访问。

我仔细检查了上面的拼写错误,但我没有看到,所以这应该是一个准确的反映。

6 个答案:

答案 0 :(得分:4)

要记住的一件事是,抓取SharePoint网站与抓取文件共享或非SharePoint网站不同。

其他一些快速指示:

  • sps3:协议用于抓取人物搜索的用户个人资料。在您准备好用户个人资料之前,您可以忽略抓取工具所说的任何内容。
  • 您的抓取帐户应该可以访问整个服务器场。如果您看到权限错误,请找到知道如何重置爬网帐户的知识库文章(这是特定的stsadm.exe命令)。如果您尝试抓取其他服务器场的内容,则必须使用其他内容来授予您的抓取帐户访问权限。我认为这是你目前最大的问题。
  • 爬网程序(从索引服务器运行)将尝试访问公共URL。我之前有过服务器间通信问题;确保所有三台服务器都可以相互ping通,并确保索引服务器可以访问公共URL(在索引服务器上打开IE并检查它)。如果您遇到问题,是时候弄脏索引服务器的hosts文件了。这无论如何都是SharePoint为你做的事情,所以不要觉得太糟糕了。如果您在集成Windows身份验证之外设置了任何内容,则必须更加努力地让爬虫工作。

无论如何,在回复中有很多来回,所以我只是在那里拍摄了一堆建议,也许其中一个是目标。

答案 1 :(得分:1)

我对您的场拓扑感到有点困惑。作为WFE安装的机器不能成为索引器。安装为“完整”的计算机可以是索引器,查询和/或wfe ...

此外,您可能希望添加抓取规则(一旦所有内容都启动并运行),而不是更改默认内容访问帐户

你能看到你的索引器上的%commonprogramfiles%/ microsoft共享/ web服务器扩展/ 12 /日志是否有用吗?

日志文件可能有点冗长,您可以搜索“已启动”或“已满”,这通常会让您进入爬网开始的日志行。

此外,在您的SQL机器上,您可以从MSScrawlurlhistory表中获取更多信息。

答案 2 :(得分:1)

您可以为http://www.cnn.com创建内容来源并开始完全抓取吗?你得到同样的错误吗?

此外,我们可能希望将其脱机,如果您想这样做,请告诉我。

我不确定是否有办法通过stackoverflow发送私信。

答案 3 :(得分:1)

你的大多数问题都与Kerberos有关,听起来像。如果您没有应用基础结构更新,则Sharepoint将无法将kerberos auth用于具有非默认(80/443)端口的网站。这也是为什么(我敢打赌)当服务器5在服务器4上时无法从服务器5访问CA.如果没有正确设置SPN,那么CA只能从安装它的机器上访问。如果您使用端口80安装了Sharepoint作为默认URL,则可以毫无阻碍地执行本地sharepoint爬网。但是按照设计,本地sharepoint站点抓取使用默认URL来访问sharepoint站点。查看http://codefrob.spaces.live.com/blog/cns!7C69E7B2271B08F6!363.entry以获取有关如何获取Kerberos&的详细信息。 Sharepoint可以很好地协同工作。

答案 4 :(得分:0)

在“服务器上的服务”部分中,检查搜索爬网帐户的属性,以确保其已设置,并且具有访问这些网站的权限。

答案 5 :(得分:0)

感谢您的新输入!

所以我从周末回来,我想通过你的指针尝试每一个,然后报告他们如何不工作,然后发布我得到的结果。但有趣的事情发生了。

我去了我的Indexer(servername5),我尝试从Internet Explorer连接到Central Admin和主门户。都没有奏效。所以我在Indexer上进入IIS尝试从IIS中浏览到主门户。这也没用,我收到一个错误告诉我其他东西正在使用该端口。所以我从上一个版本中看到了我的旧网站,并将其与IIS以及相应的应用程序池一起删除。然后我从新版本启动了网站的App Pool并浏览到了网站。成功。然后我在自己的电脑上浏览器浏览了网站。再次成功。然后我按照完整的URL而不是服务器名进行爬网,如下所示:

http://sharepoint.portal.fake.com

再次成功。它像我想要的那样爬行整个门户网站,包括子网站。 “索引中的项目”很快填充,我可以说我正在滚动。

我仍然无法从servername5访问servername4上托管的Central Admin站点。我不知道为什么不这样做,但我不知道在这一点上这很重要。

这让我离开了什么地方?修复是什么?

我还不确定。也许这是重建。也许只要我重建服务器场,我就拥有了让它工作所需的一切,但由于之前的网站仍然在IIS中,它只是不起作用。 (有趣的是,如果不能安装SharePoint,那么手动删除内容数据库,网站和应用程序池似乎是必要的,而且情况可能并非如此。)

无论如何,它现在正在我的“测试”服务器场上工作,所以关键是让它在生产服务器场上工作。我希望在这次经历之后不会那么困难。

感谢大家的帮助!