如果服务器拒绝访问,如何在PHP中提取元标记?

时间:2017-08-01 14:22:42

标签: php web-scraping meta-tags domxpath

过去有很多关于此问题的讨论。但事情发生了很大变化。例如在这个问题中

Get title of website via link

有许多解决方案在过去有效,但现在当我查看某些网站时

不起作用

https://webdesign.tutsplus.com/articles/the-complete-beginners-guide-to-chinese-fonts--cms-23444

我尝试了上述SO讨论中提到的所有方法,但没有一个适用于此网址。但后来我在这个页面上尝试了同样的东西,他们得到了页面的标题。

http://tools.buzzstream.com/meta-tag-extractor

他们是怎么做到的?如果不使用PHP,那么如何在PHP中完成它?请提出除上述SO讨论中提到的答案以外的答案,尝试所有这些并且没有为tutsplus网站工作。 DOMXPATH,file_get_contents(),cURL或添加浏览器标题都不起作用。

1 个答案:

答案 0 :(得分:1)

对我来说它有效( - ;

在这种情况下,有必要设置<button id="additem">add item</button> <button id="removeitem">remove item</button> <div id="container"> </div>,因为如果您在USER_AGENT之前发送请求,则回复为USER_AGENT

P.S。始终检查错误和响应( - ;

HTTP request failed! HTTP/1.1 403 Forbidden