sharepoint - MOSS 2007抓取

MOSS 2007抓取

时间：2008-09-19 11:25:07

标签： sharepoint search

我正试图爬上我在两个独立的农场上工作，但无法让它在任何一个上工作。它们都有两个WFE，另外一个WFE配置为索引服务器。还有一个专用于Query的服务器和两个用于数据库的集群SQL 2005后端服务器。我用搜索引擎的解决方案尝试了至少50个不同的网站，但未成功。我已配置（扩展）我的Web App以使用http://servername:12345作为默认区域，http://abc.companyname.com作为自定义和Intranet区域。当我将每个内容输入内容源然后尝试运行爬网时，我在抓取日志中收到了一些错误：

http://servername:12345返回：
“无法连接到服务器。请确保该网站可以访问。”

http://abc.companyname.com返回：
“由收集者删除。（包含此项目的起始地址或内容源已删除，因此该项目已删除。”“

但是，我可以点击两个网址，并且页面可以访问。

有什么想法吗？

更多信息：

我擦干净的石板，可以这么说，并再次爬行以提供更新的样本。

我的内容来源如下：

http://servername:33333
http://sharepoint.portal.fake.com
SPS3：//服务器：33333

我当前的抓取日志错误是：

SPS3：//服务器：33333个
PortalCrawl Web服务中出错。

http://servername:33333/mysites
服务器排除此URL的内容，因为没有索引属性。

http://servername:33333/mysites
爬取

STS3：//服务器：33333 / contentdbid = {62a647a ...
爬取

STS3：//服务器：33333
爬取

http://servername:33333
爬取

http://sharepoint.portal.fake.com
Crawler无法与服务器通信。检查服务器是否可用以及是否正确配置了防火墙访问。

我仔细检查了上面的拼写错误，但我没有看到，所以这应该是一个准确的反映。

6 个答案:

答案 0 :(得分：4)

要记住的一件事是，抓取SharePoint网站与抓取文件共享或非SharePoint网站不同。

其他一些快速指示：

sps3：协议用于抓取人物搜索的用户个人资料。在您准备好用户个人资料之前，您可以忽略抓取工具所说的任何内容。
您的抓取帐户应该可以访问整个服务器场。如果您看到权限错误，请找到知道如何重置爬网帐户的知识库文章（这是特定的stsadm.exe命令）。如果您尝试抓取其他服务器场的内容，则必须使用其他内容来授予您的抓取帐户访问权限。我认为这是你目前最大的问题。
爬网程序（从索引服务器运行）将尝试访问公共URL。我之前有过服务器间通信问题;确保所有三台服务器都可以相互ping通，并确保索引服务器可以访问公共URL（在索引服务器上打开IE并检查它）。如果您遇到问题，是时候弄脏索引服务器的hosts文件了。这无论如何都是SharePoint为你做的事情，所以不要觉得太糟糕了。如果您在集成Windows身份验证之外设置了任何内容，则必须更加努力地让爬虫工作。

无论如何，在回复中有很多来回，所以我只是在那里拍摄了一堆建议，也许其中一个是目标。

答案 1 :(得分：1)

我对您的场拓扑感到有点困惑。作为WFE安装的机器不能成为索引器。安装为“完整”的计算机可以是索引器，查询和/或wfe ...

此外，您可能希望添加抓取规则（一旦所有内容都启动并运行），而不是更改默认内容访问帐户

你能看到你的索引器上的％commonprogramfiles％/ microsoft共享/ web服务器扩展/ 12 /日志是否有用吗？

日志文件可能有点冗长，您可以搜索“已启动”或“已满”，这通常会让您进入爬网开始的日志行。

此外，在您的SQL机器上，您可以从MSScrawlurlhistory表中获取更多信息。

答案 2 :(得分：1)

您可以为http://www.cnn.com创建内容来源并开始完全抓取吗？你得到同样的错误吗？

此外，我们可能希望将其脱机，如果您想这样做，请告诉我。

我不确定是否有办法通过stackoverflow发送私信。

答案 3 :(得分：1)

你的大多数问题都与Kerberos有关，听起来像。如果您没有应用基础结构更新，则Sharepoint将无法将kerberos auth用于具有非默认（80/443）端口的网站。这也是为什么（我敢打赌）当服务器5在服务器4上时无法从服务器5访问CA.如果没有正确设置SPN，那么CA只能从安装它的机器上访问。如果您使用端口80安装了Sharepoint作为默认URL，则可以毫无阻碍地执行本地sharepoint爬网。但是按照设计，本地sharepoint站点抓取使用默认URL来访问sharepoint站点。查看http://codefrob.spaces.live.com/blog/cns!7C69E7B2271B08F6!363.entry以获取有关如何获取Kerberos＆amp;的详细信息。 Sharepoint可以很好地协同工作。

答案 4 :(得分：0)

在“服务器上的服务”部分中，检查搜索爬网帐户的属性，以确保其已设置，并且具有访问这些网站的权限。

答案 5 :(得分：0)

感谢您的新输入！

所以我从周末回来，我想通过你的指针尝试每一个，然后报告他们如何不工作，然后发布我得到的结果。但有趣的事情发生了。

我去了我的Indexer（servername5），我尝试从Internet Explorer连接到Central Admin和主门户。都没有奏效。所以我在Indexer上进入IIS尝试从IIS中浏览到主门户。这也没用，我收到一个错误告诉我其他东西正在使用该端口。所以我从上一个版本中看到了我的旧网站，并将其与IIS以及相应的应用程序池一起删除。然后我从新版本启动了网站的App Pool并浏览到了网站。成功。然后我在自己的电脑上浏览器浏览了网站。再次成功。然后我按照完整的URL而不是服务器名进行爬网，如下所示：

http://sharepoint.portal.fake.com

再次成功。它像我想要的那样爬行整个门户网站，包括子网站。 “索引中的项目”很快填充，我可以说我正在滚动。

我仍然无法从servername5访问servername4上托管的Central Admin站点。我不知道为什么不这样做，但我不知道在这一点上这很重要。

这让我离开了什么地方？修复是什么？

我还不确定。也许这是重建。也许只要我重建服务器场，我就拥有了让它工作所需的一切，但由于之前的网站仍然在IIS中，它只是不起作用。（有趣的是，如果不能安装SharePoint，那么手动删除内容数据库，网站和应用程序池似乎是必要的，而且情况可能并非如此。）

无论如何，它现在正在我的“测试”服务器场上工作，所以关键是让它在生产服务器场上工作。我希望在这次经历之后不会那么困难。

感谢大家的帮助！