如果我有一个包含大量线程的论坛网站,搜索引擎机器人每次都会抓取整个网站吗?假设我的网站中有超过1,000,000个线程,每次机器人抓取我的网站时是否会被抓取?或者它是如何工作的?我希望我的网站被编入索引,但我不希望机器人杀死我的网站!换句话说,我不希望机器人每次抓取我的网站时都会一次又一次地抓取旧线程。
另外,以前爬过的页面怎么样?机器人每次抓取我的网站以确保他们仍然在网站上时是否会请求他们?我问这个是因为我只链接到最新的线程,即有一个页面包含所有最新线程的列表,但我没有链接到较旧的线程,它们必须由URL明确请求,例如http:// example.com/showthread.aspx?threadid=7,这是否可以阻止机器人关闭我的网站并消耗所有带宽?
P.S。该网站仍在开发中,但我想知道为了设计网站,以便搜索引擎机器人不会将其降低。
答案 0 :(得分:8)
复杂的东西。
根据我的经验,它更多地取决于您使用哪种URL方案将页面链接在一起,这将决定抓取工具是否会抓取哪些页面。
大多数引擎会抓取整个网站,如果它全部正确地超链接并带有抓取抓取的网址,例如使用URL重写而不是topicID = 123查询字符串,并且只需点击几下主页即可轻松链接所有页面。
另一种情况是分页,如果您有分页,有时机器人只抓取第一页,并在发现下一页链接不断点击同一文档时停止,例如一个index.php整个网站。
您不希望机器人意外地点击某些执行某些操作的网页,例如链接到“delete.php?topicID = 123”的“删除主题”链接,以便大多数抓取工具也会检查这些情况。
Tools page at SEOmoz还提供了大量有关某些抓取工具的工作方式的信息和见解,以及它将提取和咀嚼的信息等。您可以使用这些来确定论坛深处的页面,例如一年之久的帖子可能会被抓取。
一些抓取工具可让您自定义抓取行为......类似于Google Sitemaps。您可以告诉他们进行爬行,不抓取哪些页面以及订单等等。我记得MSN和Yahoo也提供过此类服务,但我自己从未尝试过。
您可以通过在网站根目录中提供robots.txt文件来限制抓取机器人,使其不会压倒您的网站。
基本上,如果您设计论坛以使URL看起来不会对抓取工具产生敌意,那么它会快乐地抓取整个网站。
答案 1 :(得分:0)
基于chakrit所说的,一些搜索引擎(特别是Google)只会索引只有一个或两个参数的页面。之后,页面通常会被忽略,因为它被视为过于动态,因此是一个不可靠的URL。
最好创建没有参数的SEO友好URL,而是将实现隐藏在Apache中的mod_rewrite或Rails中的routes之类。 (例如http://domain.com/forum/post/123映射到http://domain.com/forum/post.php?id=123)。
Chakrit还提到了Google Sitemaps。这些有助于确保Google扫描每个帖子并将其永久保存在索引中。 Jeff Atwood在Stackoverflow podcast 24上对此进行了讨论,他解释说Google在将每个帖子放入站点地图之前没有保留所有Stackoverflow帖子。
答案 2 :(得分:0)
抓取机器人不会立即抓取整个网站,而是每次访问都会抓取一些网页。每次抓取的抓取频率和抓取的页数因每个网站而异。
谷歌索引的每个页面会偶尔再次抓取,以确保没有任何更改。
使用站点地图肯定有助于确保搜索引擎尽可能多地索引页面。