我正试图爬上我在两个独立的农场上工作,但无法让它在任何一个上工作。它们都有两个WFE,另外一个WFE配置为索引服务器。还有一个专用于Query的服务器和两个用于数据库的集群SQL 2005后端服务器。我用搜索引擎的解决方案尝试了至少50个不同的网站,但未成功。我已配置(扩展)我的Web App以使用http://servername:12345作为默认区域,http://abc.companyname.com作为自定义和Intranet区域。当我将每个内容输入内容源然后尝试运行爬网时,我在抓取日志中收到了一些错误:
http://servername:12345返回:
“无法连接到服务器。请确保该网站可以访问。”
http://abc.companyname.com返回:
“由收集者删除。(包含此项目的起始地址或内容源已删除,因此该项目已删除。”“
但是,我可以点击两个网址,并且页面可以访问。
有什么想法吗?
更多信息:
我擦干净的石板,可以这么说,并再次爬行以提供更新的样本。
我的内容来源如下:
http://servername:33333
http://sharepoint.portal.fake.com
SPS3://服务器:33333
我当前的抓取日志错误是:
SPS3://服务器:33333个
PortalCrawl Web服务中出错。
http://servername:33333/mysites
服务器排除此URL的内容,因为没有索引属性。
http://servername:33333/mysites
爬取
STS3://服务器:33333 / contentdbid = {62a647a ...
爬取
STS3://服务器:33333
爬取
http://sharepoint.portal.fake.com
Crawler无法与服务器通信。检查服务器是否可用以及是否正确配置了防火墙访问。
我仔细检查了上面的拼写错误,但我没有看到,所以这应该是一个准确的反映。
答案 0 :(得分:4)
要记住的一件事是,抓取SharePoint网站与抓取文件共享或非SharePoint网站不同。
其他一些快速指示:
无论如何,在回复中有很多来回,所以我只是在那里拍摄了一堆建议,也许其中一个是目标。
答案 1 :(得分:1)
我对您的场拓扑感到有点困惑。作为WFE安装的机器不能成为索引器。安装为“完整”的计算机可以是索引器,查询和/或wfe ...
此外,您可能希望添加抓取规则(一旦所有内容都启动并运行),而不是更改默认内容访问帐户
你能看到你的索引器上的%commonprogramfiles%/ microsoft共享/ web服务器扩展/ 12 /日志是否有用吗?
日志文件可能有点冗长,您可以搜索“已启动”或“已满”,这通常会让您进入爬网开始的日志行。
此外,在您的SQL机器上,您可以从MSScrawlurlhistory表中获取更多信息。
答案 2 :(得分:1)
您可以为http://www.cnn.com创建内容来源并开始完全抓取吗?你得到同样的错误吗?
此外,我们可能希望将其脱机,如果您想这样做,请告诉我。
我不确定是否有办法通过stackoverflow发送私信。
答案 3 :(得分:1)
你的大多数问题都与Kerberos有关,听起来像。如果您没有应用基础结构更新,则Sharepoint将无法将kerberos auth用于具有非默认(80/443)端口的网站。这也是为什么(我敢打赌)当服务器5在服务器4上时无法从服务器5访问CA.如果没有正确设置SPN,那么CA只能从安装它的机器上访问。如果您使用端口80安装了Sharepoint作为默认URL,则可以毫无阻碍地执行本地sharepoint爬网。但是按照设计,本地sharepoint站点抓取使用默认URL来访问sharepoint站点。查看http://codefrob.spaces.live.com/blog/cns!7C69E7B2271B08F6!363.entry以获取有关如何获取Kerberos&的详细信息。 Sharepoint可以很好地协同工作。
答案 4 :(得分:0)
在“服务器上的服务”部分中,检查搜索爬网帐户的属性,以确保其已设置,并且具有访问这些网站的权限。
答案 5 :(得分:0)
感谢您的新输入!
所以我从周末回来,我想通过你的指针尝试每一个,然后报告他们如何不工作,然后发布我得到的结果。但有趣的事情发生了。
我去了我的Indexer(servername5),我尝试从Internet Explorer连接到Central Admin和主门户。都没有奏效。所以我在Indexer上进入IIS尝试从IIS中浏览到主门户。这也没用,我收到一个错误告诉我其他东西正在使用该端口。所以我从上一个版本中看到了我的旧网站,并将其与IIS以及相应的应用程序池一起删除。然后我从新版本启动了网站的App Pool并浏览到了网站。成功。然后我在自己的电脑上浏览器浏览了网站。再次成功。然后我按照完整的URL而不是服务器名进行爬网,如下所示:
http://sharepoint.portal.fake.com
再次成功。它像我想要的那样爬行整个门户网站,包括子网站。 “索引中的项目”很快填充,我可以说我正在滚动。
我仍然无法从servername5访问servername4上托管的Central Admin站点。我不知道为什么不这样做,但我不知道在这一点上这很重要。
这让我离开了什么地方?修复是什么?
我还不确定。也许这是重建。也许只要我重建服务器场,我就拥有了让它工作所需的一切,但由于之前的网站仍然在IIS中,它只是不起作用。 (有趣的是,如果不能安装SharePoint,那么手动删除内容数据库,网站和应用程序池似乎是必要的,而且情况可能并非如此。)
无论如何,它现在正在我的“测试”服务器场上工作,所以关键是让它在生产服务器场上工作。我希望在这次经历之后不会那么困难。
感谢大家的帮助!