如何解析LinkedIn页面

时间:2017-02-15 09:44:19

标签: php html-parsing

可能有人帮助我如何通过curl解析此链接?

https://www.linkedin.com/in/williamhgates/

这是我的代码:

运行它并查看结果:

$url = "https://www.linkedin.com/in/williamhgates/";
$ch = curl_init($url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_BINARYTRANSFER, true);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
curl_setopt($ch, CURLOPT_HTTPHEADER, array('Host: www.linkedin.com/in/williamhgates/'));
$output = curl_exec($ch);
curl_close($ch);dd($output);die;

我只想在文件中获取整个源代码,但它显示:

Could not process this client request HTTP method request for URL

2 个答案:

答案 0 :(得分:1)

Linked in不允许除少数发送流量的所有抓取工具(Google bot,Bingbot等),他们已明确阻止了User-agent。所以不可能向Linkedin页面发出curl请求。 但无论如何你仍然设法抓住Linkedin,它可能会为你创造法律问题。因此,最好不要将Linkedin放在一边。

答案 1 :(得分:1)

标准方式似乎不再适用于LinkedIn 即使在iframe中放置LinkedIn页面也不起作用。您收到回复说Load denied by X-Frame-Options: https://www.linkedin.com does not permit cross-origin framing.
Feed43过去工作到大约5周前,现在它得到HTTP/1.1 999 Request denied响应。

有一个官方的LinkedIn插件可以在您的网站上获取LinkedIn用户个人资料小部件 - https://developer.linkedin.com/plugins/member-profile

还有其他一些插件 - https://developer.linkedin.com/plugins

但是这些天你得到了所有这些。