LinkedIn Webscrape

时间:2018-04-08 03:45:27

标签: python scrape linkedin-api

我需要获取Linkedin个人资料的基本个人资料数据(完整页面 - html)。我尝试过诸如beautifulsoup之类的python包,但是我拒绝访问。

我已经为linkedIn生成了api令牌,但我不确定如何将它们合并到代码中。

基本上,我想通过提供公司名称来自动化抓取过程。

请帮忙。谢谢!

1 个答案:

答案 0 :(得分:0)

美丽的汤是一个网络刮刀。通常,人们使用此库来解析来自公共网站或没有API的网站的数据。例如,您可以使用它来抓取前10个Google搜索结果。

与网络抓取工具不同, API 可让您检索非公开网站背后的数据。此外,它以易于阅读的XML或JSON格式返回数据,因此您不必为所关注的特定数据“刮”HTML文件。

要对LinkedIn进行API调用,请使用python HTTP请求库。有关示例,请参阅this stackoverflow post

看看Step 4 of the LinkedIn API documentation。它显示了一个示例HTTP GET调用。

GET /v1/people/~ HTTP/1.1 Host: api.linkedin.com Connection: Keep-Alive Authorization: Bearer AQXdSP_W41_UPs5ioT_t8HESyODB4FqbkJ8LrV_5mff4gPODzOYR

请注意,您还需要发送“授权”标头以及HTTP GET调用。这是您的令牌将去的地方。您现在可能正在拒绝访问,因为您没有在请求中设置此标头。

Here's an example如何将该标头添加到requests库的请求中。

那应该是它。当您发出该请求时,它应该返回包含您想要的数据的XML或JSON。您可以使用XML或JSON解析器来获取所需的特定字段。