我正试图从网站http://southasiaterrorism.trfetzer.com/districts/17497-IND-Nandurbar.html抓取所有录制的活动表。 我正在使用scrapy spider,但是因为它是动态加载的,所以不可能获得该表。 我试图使用selenium,但没有结果,我得到了相同的静态html页面没有加载表。 任何帮助将不胜感激。
答案 0 :(得分:0)
正如@Stack所述,内容未动态加载,而是位于<script>
标记内的页面中。你可以尝试这样的事情:
page = urllib2.urlopen(url).read()
soup = BeautifulSoup(page)
for tr in soup.find_all('tr')[2:]:
tds = tr.find_all('td')
print (tds)
注意:此代码未经测试。