我的网站已成功通过Google网站站长验证。我对robot.txt的爬虫访问也是200(成功)。但是,当我检查“爬网错误”时,几乎每个页面都“无法访问”,包括域主页本身。唯一被抓取且没有错误的页面是附件/文件页面(例如pdf,xls,jpg等)。这真的很奇怪。
我的网站由Ruby on Rails创建并使用MySQL数据库。
答案 0 :(得分:1)
页面需要很长时间才能渲染吗?我怀疑如果页面响应太久,Google的抓取工具就会放弃。考虑将Varnish放在昂贵且不包含任何用户相关或动态内容的公共页面之前?