我需要获取Linkedin个人资料的基本个人资料数据(完整页面 - html)。我尝试过诸如beautifulsoup之类的python包,但是我拒绝访问。
我已经为linkedIn生成了api令牌,但我不确定如何将它们合并到代码中。
基本上,我想通过提供公司名称来自动化抓取过程。
请帮忙。谢谢!
答案 0 :(得分:0)
美丽的汤是一个网络刮刀。通常,人们使用此库来解析来自公共网站或没有API的网站的数据。例如,您可以使用它来抓取前10个Google搜索结果。
与网络抓取工具不同, API 可让您检索非公开网站背后的数据。此外,它以易于阅读的XML或JSON格式返回数据,因此您不必为所关注的特定数据“刮”HTML文件。
要对LinkedIn进行API调用,请使用python HTTP请求库。有关示例,请参阅this stackoverflow post。
看看Step 4 of the LinkedIn API documentation。它显示了一个示例HTTP GET调用。
GET /v1/people/~ HTTP/1.1
Host: api.linkedin.com
Connection: Keep-Alive
Authorization: Bearer AQXdSP_W41_UPs5ioT_t8HESyODB4FqbkJ8LrV_5mff4gPODzOYR
请注意,您还需要发送“授权”标头以及HTTP GET调用。这是您的令牌将去的地方。您现在可能正在拒绝访问,因为您没有在请求中设置此标头。
Here's an example如何将该标头添加到requests
库的请求中。
那应该是它。当您发出该请求时,它应该返回包含您想要的数据的XML或JSON。您可以使用XML或JSON解析器来获取所需的特定字段。