使用python隐藏数据从HTML中提取标记

时间:2017-08-22 16:06:31

标签: html python-2.7 web-scraping

我正在尝试从不同的网页上学习。我试图从包含标签的页面中抓取数据,如下所示:

url = "https://www.bc.edu/bc-web/schools/mcas/departments/art/people/#par-bc_tabbed_content-tab-0"
page = requests.get(url)
content = page.content
tree = html.fromstring(page.content)
soup = BeautifulSoup(content,"html.parser")
p = soup.find_all('div',{"id":'e6bde0e9_358d_4966_8fde_be96e9dcad0b'})
print p

返回空结果 虽然检查元素会显示内容,但源页面不会显示此数据。有关如何提取内容的任何指示。

1 个答案:

答案 0 :(得分:1)

这是因为javascript呈现,这意味着您想要的数据不会附带原始请求,而是由该响应的javascript生成的请求。

要检查原始请求生成的所有请求,您必须在Chrome中使用developer tools之类的内容。

对于这种特殊情况,您需要的实际请求是此site,它将为您提供所需的信息。