我想阻止谷歌在我的网站上编制pdf索引。
我修改了我的.htaccess文件以包含以下行,如谷歌网站管理员工具所示:
<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>
我知道apache正常运行并且正在读取我的.htaccess文件,因为我可以完全阻止对该文件的访问,但我无法判断上述命令是否正常工作。
Google网站管理员工具声称抓取工具仍然可以看到pdf,但它们似乎仅用于robots.txt。是否有第三方工具(用于linux),我可以使用它来检查元标记?
答案 0 :(得分:1)
您可以在某些PDF上使用wget并查看标题:
wget -S http://host/something.pdf