LinkedIn没有获取所有数据

时间:2016-04-22 19:35:12

标签: python html web-scraping beautifulsoup linkedin

来自以下网站:https://www.linkedin.com/company/10073529?trk=tyah&trkInfo=clickedVertical%3Acompany%2CclickedEntityId%3A10073529%2Cidx%3A1-1-1%2CtarId%3A1461132316737%2Ctas%3Adastrong%20

我正在尝试检索

与data-li-miniprofile-id相关联的链接

a class =“new-miniprofile-container”href =“...”data-li-url =“...”data-li-miniprofile-id =“...>

有父母,下,下等...

这是我的代码到目前为止所看到的:

import requests
from bs4 import beautifulsoup

headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.content, "html.parser")
for link in soup.find_all("a"):
    print(link.get('href'))

我最初只是寻找一个class =“new-miniprofile-container”,但它返回一个空数组。我认为原因是当我运行soup.prettify()(返回所有html抓取的数据)时,它只是不包含任何子内容

我觉得这个问题与LinkedIn工程师设置的安全块有关,但我想知道是否有办法获取这些网址,或者是否有其他方法可以获取这些网址。

1 个答案:

答案 0 :(得分:0)

您应该使用LinkedIn REST API代替。有相关的公司配置文件相关端点,您可以尝试使用REST API资源管理器here。还有一个python-linkedin客户端,其中还记录了Company API部分。