Question

我正试图从网站http://southasiaterrorism.trfetzer.com/districts/17497-IND-Nandurbar.html抓取所有录制的活动表。我正在使用scrapy spider，但是因为它是动态加载的，所以不可能获得该表。我试图使用selenium，但没有结果，我得到了相同的静态html页面没有加载表。任何帮助将不胜感激。

Answer 1

正如@Stack所述，内容未动态加载，而是位于<script>标记内的页面中。你可以尝试这样的事情：

page = urllib2.urlopen(url).read()
soup = BeautifulSoup(page)
for tr in soup.find_all('tr')[2:]:
    tds = tr.find_all('td')
    print (tds)

来自this question。

注意：此代码未经测试。

使用硒与scrapy

1 个答案: