Question

您好我正在尝试抓取并解析来自网络https://html5test.com/的所有表格数据。所以，我写了下面的代码。但它没有显示任何数据。我查看了问题的答案，但无法弄清楚问题。

from BeautifulSoup import BeautifulSoup
from urllib2 import urlopen
import re


url='https://html5test.com/'
data=urlopen(url)

parse=BeautifulSoup(data).findAll('div', attrs={'class': 'resultsTable detailsTable'})

Answer 1

查看源代码（Chrome中的view-source：https://html5test.com/），我实际上找不到'resultsTable`类。看起来这是使用JavaScript动态生成的。你需要一个渲染JavaScript的刮刀，例如Scrapy with Splash（参见https://blog.scrapinghub.com/2015/03/02/handling-javascript-in-scrapy-with-splash/）。

网站从网站上刮网

1 个答案: