使用硒与scrapy

时间:2017-10-25 17:50:54

标签: python selenium scrapy

我正试图从网站http://southasiaterrorism.trfetzer.com/districts/17497-IND-Nandurbar.html抓取所有录制的活动表。 我正在使用scrapy spider,但是因为它是动态加载的,所以不可能获得该表。 我试图使用selenium,但没有结果,我得到了相同的静态html页面没有加载表。 任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:0)

正如@Stack所述,内容未动态加载,而是位于<script>标记内的页面中。你可以尝试这样的事情:

page = urllib2.urlopen(url).read()
soup = BeautifulSoup(page)
for tr in soup.find_all('tr')[2:]:
    tds = tr.find_all('td')
    print (tds)

来自this question

注意:此代码未经测试。