我是网络抓取的新手,所以任何参考网站都会很棒。我对如何获取实际数据感到有些困惑。当我打印(theText)时,我得到了一堆html代码(应该是正确的)。我如何从中获取价值呢?我是否必须使用正则表达式来获取实际的数值数据?
def getData():
request = urllib.request.Request("http://www.weather.com/weather/5day/l/USGA0028:1:US")
response = urllib.request.urlopen(request)
the_page = response.read()
theText = the_page.decode()
print(theText)
答案 0 :(得分:5)
看看BeautifulSoup。它允许您通过ID或标签获取元素。它对基本刮削非常有用 您可以使用响应文本(html页面)调用美味的汤,然后您可以调用bs方法
答案 1 :(得分:0)