我是网络抓取的新手,到目前为止我只知道如何使用python beautiful soup刮取基本的html页面。我想要的是提取有关此page的信息。具体来说,我想从所有研究员那里得到以下数据(大约700个)
然而,该页面由javascript呈现,并且当在每个人物图片上触发鼠标悬停事件时,所需信息仅显示为单独的框。
在这种情况下如何提取文本?任何信息(书籍,网络资源)表示赞赏。如果可能,首选Python解决方案。非常感谢。
答案 0 :(得分:1)
检查网站的页面来源。
信息已经存在于DOM中,只是使用CSS隐藏。乍一看,似乎JavaScript逻辑只是在进行CSS操作。
信息被CSS隐藏的事实不会阻止您使用网络抓取工具从源上抓取它。