我有一个包含页脚html文件的html文件。问题是,页脚包含一堆我不想被抓取的信用和版权信息 - 它会关闭我的关键字密度。我已经"不允许" robots.txt文件中的页脚文件,我已将标记放在头部。
这是否足以让这部分内容不被抓取?我已经读过一些iFrame技巧,如果我做的不够,我可能会尝试。
Geesh,您认为这是排除区块的更简单方法......
TIA。
答案 0 :(得分:0)
尝试使用robots.txt。
禁止所有网页使用:
User-agent: *
Disallow: /
禁止使用某些网页:
User-agent: *
Disallow: /test/
Disallow: /donotcrawl.html
你不能"不允许"只有你网页的一部分(即:页眉,页脚......)。它的一切或全无。
我不会使用iframe来解决这个问题。如果您使用的是PHP,则可以使用robots.txt并仅包含()您想要的内容,如页脚,页眉或导航菜单。