网站不仅可以由浏览器上的用户访问,还可以访问程序,漫游器和抓取工具。我有一个运行在Google App Engine上的网站,其中包含python,它具有非静态HTML页面,这些页面由python程序通过组合,合并和循环字符串生成。但是,它们也不是动态页面,因为生成这些页面不需要用户输入。 python的内容生成仅仅是为了方便,简洁和易于维护,完全由URL设置。
某些搜索引擎无法索引动态网页。我想知道这些页面是否符合“动态”标准,即是否可以通过这些机器人抓取或索引常用元数据和内容,并且通常想要检查任何的方式url看起来像搜索引擎使用的机器人或爬虫,所以我可以看到某个网址何时不可抓取。
如果有人知道任何可用的资源或技术,那将非常有帮助。
答案 0 :(得分:3)
某些搜索引擎无法为动态网页编制索引。
不正确。客户端无法知道并且不关心服务器是通过执行脚本还是只读取静态文件来获取内容。
大多数搜索引擎都不会执行客户端JavaScript。大多数搜索引擎都不会提交表单。
如果您的内容可通过以下链接(位于HTML中)访问,则搜索引擎可以获取这些页面。
答案 1 :(得分:2)
Lynx是一个基于文本的浏览器,可让您很好地了解搜索机器人如何看到您的网页。古老,久经考验,真实。