Question

我是网络抓取的新手，所以任何参考网站都会很棒。我对如何获取实际数据感到有些困惑。当我打印（theText）时，我得到了一堆html代码（应该是正确的）。我如何从中获取价值呢？我是否必须使用正则表达式来获取实际的数值数据？

def getData():
    request = urllib.request.Request("http://www.weather.com/weather/5day/l/USGA0028:1:US")
    response = urllib.request.urlopen(request)
    the_page = response.read()
    theText = the_page.decode()
    print(theText)

Answer 1

看看BeautifulSoup。它允许您通过ID或标签获取元素。它对基本刮削非常有用您可以使用响应文本（html页面）调用美味的汤，然后您可以调用bs方法

Answer 2

不，你shouldn't use RegExp for HTML。代替。看看BeatifulSoup4

如何在网页抓取时获取数值数据？

2 个答案: