Question

我想阻止谷歌在我的网站上编制pdf索引。

我修改了我的.htaccess文件以包含以下行，如谷歌网站管理员工具所示：

<Files ~ "\.pdf$">   
    Header set X-Robots-Tag "noindex, nofollow" 
</Files>

我知道apache正常运行并且正在读取我的.htaccess文件，因为我可以完全阻止对该文件的访问，但我无法判断上述命令是否正常工作。

Google网站管理员工具声称抓取工具仍然可以看到pdf，但它们似乎仅用于robots.txt。是否有第三方工具（用于linux），我可以使用它来检查元标记？

Answer 1

您可以在某些PDF上使用wget并查看标题：

wget -S http://host/something.pdf