我创建了一个关于啤酒品牌的网站,并且必须包含年龄验证页面。验证脚本是用PHP编写的,并使用会话来存储验证变量。该脚本的工作方式是,无论您将尝试进入网站的哪个链接,它都会首先进入验证页面。验证非常简单。有2个按钮:“我21岁以下”和“我超过21岁”。如果单击后者,则可以浏览网站。
一段时间后,我发现网络抓取工具无法通过验证页面。我在Google网站管理员工具中检查了该网站,并且扫描的唯一文本内容来自验证页面。
我在某地读过爬虫无法提交表单按钮,这是真的吗?
考虑到年龄验证页面无论如何都是无用的,也许我应该把它作为起始页面,但不要禁止绕过它,例如从链接到子页面?
答案 0 :(得分:4)
为什么不按钮链接而不是提交按钮。
答案 1 :(得分:2)
让您的年龄验证页面检测主要抓取工具用户代理并重定向到主要内容页面。您可以在同一代码块中自动设置所需的任何变量。