我刚刚在google上进行了转化搜索“15磅(公斤)”,第一次点击是http://www.trueknowledge.com/q/what_is_15_kg_in_lbs
然后我可以将15更改为任意数字,包括小数,并且我总是得到trueknoledge作为第一次点击,并直接链接到他们的网站以转换该数字。
我可以想象你可以通过自动链接到每个页面上的下一个数字来构建这样的东西,并且他们似乎也通过提供“像你这样的问题” - 链接来做到这一点。对于这个例子,它很容易,但我已经看到很多其他情况,你搜索任意的东西只是为了触及另一个搜索页面,为那个确切的搜索短语提供了自己糟糕的搜索结果。
这是基于通过猜测短语来为googles抓取工具生成链接还是如何完成?
我对创建这些网站的克隆不感兴趣,我真的很讨厌它们。我只是好奇它是如何制作的,以及谷歌是否试图以某种方式阻止它。对于他们提供良好结果的转换我不介意,但是当我到达另一个搜索页面时,它真的很烦人。
答案 0 :(得分:0)
实际上,“我可以将15改为任何数字”这不是真的。例如。现在,如果您搜索“15磅以公斤为单位”,则将http://wiki.answers.com/Q/How_much_is_15_lbs_in_kg作为其中一个链接。但是,如果您尝试“15.713lbs in kg”,则列表中不会显示http://wiki.answers.com/Q/How_much_is_15_713_lbs_in_kg或类似内容。如果你搜索“15.71349lbs in kg”,你什么也得不到(谷歌转换器的输出除外)。正如你所提到的,并不是它不理解小数 - http://www.trueknowledge.com/q/15.1_kg_in_lbs是搜索“15.1lbs in kg”时的第一个链接。
免责声明:我不知道这些网站是做什么以及他们是如何做的,这只是我的意见。
这些必须以某种方式从用户查询中生成。可能最具生成性的是http://www.trueknowledge.com/上的搜索栏。当用户在那里搜索时,该网站可以自动生成Google可以找到的链接。如果您访问网站上的某些链接,例如http://www.trueknowledge.com/recent-activity,您会发现页面上有很多问题,每个问题都有类似于您发布的链接。这是Google发现它们的方式之一。 “15磅(公斤)”可能是一个非常常见的问题,因此它可能已被问过一百万次,并且在一些问题中。
另请注意,有问题页面,例如http://www.trueknowledge.com/new-questions/100。如果你从那里爬行(而且,相信它,谷歌有快速爬虫:))你可以每页100个问题。截至目前的最后一页是http://www.trueknowledge.com/new-questions/94000 - 注意,即每次抓取94000个链接,这种类型的网站可能经常发生这种情况。
当然还有许多其他可能的技术:
今天互联网上的信息量如此巨大,以至于生成像trueknowledge.com这样的链接并不是很难。这些家伙面对的困难部分是另一方面 - 快速搜索并获得有意义的结果。