Googlebot(Googlebot/2.1)似乎按照与网址长度相对应的顺序抓取新添加网站上的网址:
.. GET /ivjwiej/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /voeoovo/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /zeooviee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oveizuee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /veiiziuuy/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oweoivuuu/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oeppwoovvw/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /aabieuuzii/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
我在多个(> 10个)完全独立的网站上看到了这个确切的模式,所以排序不仅仅是一个随机的巧合。
为避免混淆:抓取订单似乎是Googlebot运营方式的一个非常细微的细节。是的,它确实是一个小细节,但我想了解Googlebot如何抓取网络的技术细节。爬行顺序就是这样一个细节。如果您认为这条知识是“无用的”,那就完全没问题了,但请不要用答案污染这个页面,因为您的贡献不会很有帮助。无助的答案将根据SO的规则进行投票。
我的问题是:
请尝试解决所有三(3)个问题。
答案 0 :(得分:3)
从网络开发的角度来看 这种非随机爬行模式可以 给出意外的后果;如 非随机负载模式(如果有的话) 特定的URL长度对应于一个 特别重的类型 交易等。
如果搜索引擎机器人可以访问交易页面,那么我称之为失败。搜索引擎机器人不应该对交易页面有任何访问权限!要么禁止在robots.txt中索引,要么在元机器人的页面上对其进行索引。
你的三个问题因此无用 - 谷歌没有记录他们使用的任何算法。此外,爬行顺序对于了解(或尝试操纵)完全没用,因为基本上你并不关心并希望尽可能多地索引索引(除了你在robots.txt中禁止的那些页面)。
答案 1 :(得分:2)
我没有经历过这样的事情(尽管我从未跟踪过哪些URL被索引以及何时被编入索引)。根据我的经验,Google会首先将其认为最受欢迎的网址编入索引。例如,如果它看到来自高级页面或多个页面的链接,它将在同一站点上的其他页面之前抓取该链接。
我能想到的唯一理由是,Googlebot假设较长的网址等同于“更深层”的网页,但忽略了文件夹结构。
答案 2 :(得分:1)
我在项目中可以看到的是,Google倾向于以机器人找到它们的方式抓取页面。而这反过来又取决于您向Google展示它们的方式(通过网站链接,站点地图,RSS订阅源等)。
所以我不会过分担心网址长度,而是在一个显着的,经常抓取的网页上放置一个链接到你想要找到的页面。
答案 3 :(得分:1)
3: 也许goggle bot将URL字符串存储在树数据结构中。第一个最短的URL是树根,因此下一个URL“结尾”将仅作为树叶附加。这比将每个URL存储为单独的字符串更为理想(例如在/ lang_english / / lang_italian / / lang_german /中)。
答案 4 :(得分:0)