我猜测像堆栈溢出这样的网站没有为每个问题保留一个html文件。相反,服务器端代码每次点击问题时都会创建页面(我认为)。搜索引擎是否有可能在Stack Overflow上索引每个问题,或者是否需要在目录中保留每个问题的页面以便搜索引擎可以抓取它?
答案 0 :(得分:4)
是。搜索引擎可以索引动态生成的页面没问题。事实上,从搜索引擎机器人的角度来看,它甚至无法区分动态生成的页面和静态页面。
答案 1 :(得分:1)
您可能会对官方Google网站管理员中心博客上的Dynamic URLs vs. static URLs帖子感兴趣。
答案 2 :(得分:0)
是的,这是完全可能的 - 当遵循链接时,服务器返回HTML就像任何其他网页一样。唯一的区别是服务器生成它,而不是一个人。
答案 3 :(得分:0)
就客户端(无论是浏览器还是搜索引擎)而言,服务器生成的页面与静态文件之间存在 no 差异。它们几乎无法区分(取决于页面的生成方式,可能缺少Last-Modified
标题等)。因此,是的,搜索引擎可以毫无问题地为生成的页面编制索引。
那就是说,有一些东西可以说给他们一个提示。例如,使用sitemaps可以为搜索引擎提供所有网页的精彩列表,因此不太可能错过它们。更重要的是,它可以总结最后修改时间,将搜索引擎的注意力集中在最近发生的变化上。这不是强制性的,但它确实有帮助 - 无论页面是静态HTML还是生成。
答案 4 :(得分:0)
大多数抓取工具都可以使用任何使用GET的链接。任何需要POST的东西通常都会被忽略。
生成页面的机制无关紧要。
答案 5 :(得分:0)
是的,如果这不受robot.txt或meta标签的限制。搜索引擎像普通用户一样请求网页,没有人可以访问服务器端代码(如果你的网站没有被黑客入侵))
答案 6 :(得分:0)
搜索引擎可以在给定网页上看到几乎没有隐藏在客户端代码(即JavaScript)背后的任何内容。
因此,如果您可以在浏览器的地址栏中输入一个URL来获取此页面,并且此页面从某个地方链接到,则搜索引擎会找到它并“看到”您执行的相同内容。页面是由服务器动态生成的,这与搜索引擎无关,因为在请求URL时发送给浏览器的内容仍然只是一个HTML文件。
换句话说,HTML文件在服务器上不存在于同一表单中 - 即,它实际上是一些生成HTML的服务器端代码,而不是静态HTML文件 - 但这不是搜索引擎爬行的内容虽然和索引,而是指向您在浏览器的地址栏中看到的文档URL的链接。