使用Wunderground数据进行Web Scraping,BeautifulSoup

时间:2017-01-15 01:20:15

标签: python beautifulsoup wunderground

好的,我在这里结束了。对于我的课程,我们应该从wunderground.com网站上获取数据。我们一直遇到问题(错误消息),或者代码运行正常,但.txt文件将包含NO数据。这很烦人,因为我需要这样做!所以这是我的代码。

f = open('wunder-data1.txt', 'w')
for m in range(1, 13):
for d in range(1, 32):
    if (m == 2 and d > 28):
        break
    elif (m in [4, 6, 9, 11] and d > 30):
        break
    url = "http://www.wunderground.com/history/airport/KBUF/2009/" + str(m) + "/" + str(d) + "/DailyHistory.html"
    page = urllib2.urlopen(url)
    soup = BeautifulSoup(page, "html.parser")
    dayTemp = soup.find("span", text="Mean Temperature").parent.find_next_sibling("td").get_text(strip=True)
    if len(str(m)) < 2:
        mStamp = '0' + str(m)
    else:
        mStamp = str(m)
    if len(str(d)) < 2:
        dStamp = '0' +str(d)
    else:
        dStamp = str(d)
    timestamp = '2009' + mStamp +dStamp
    f.write(timestamp.encode('utf-8') + ',' + dayTemp + '\n')
    f.close()

也很抱歉,这段代码可能不是Python中的正确缩进。我对此并不擅长。

更新:所以有人回答了下面的问题,并且它有效,但我意识到我正在提取错误的数据(哎呀)。所以我加入了这个:

    import codecs
    import urllib2
    from bs4 import BeautifulSoup

    f = codecs.open('wunder-data2.txt', 'w', 'utf-8')

    for m in range(1, 13):
        for d in range(1, 32):
            if (m == 2 and d > 28):
                break
            elif (m in [4, 6, 9, 11] and d > 30):
                break

            url = "http://www.wunderground.com/history/airport/KBUF/2009/" + str(m) + "/" + str(d) + "/DailyHistory.html"
            page = urllib2.urlopen(url)
            soup = BeautifulSoup(page, "html.parser")

            dayTemp = soup.findAll(attrs={"class":"wx-value"})[5].span.string
            if len(str(m)) < 2:
                mStamp = '0' + str(m)
            else:
                mStamp = str(m)
            if len(str(d)) < 2:
                dStamp = '0' +str(d)
            else:
                dStamp = str(d)

            timestamp = '2009' + mStamp +dStamp

            f.write(timestamp.encode('utf-8') + ',' + dayTemp + '\n')

    f.close()

所以我很不确定。我想要做的是数据刮掉

1 个答案:

答案 0 :(得分:0)

我在尝试执行您的代码时遇到以下错误(并在下面修复它们):

  1. 嵌套循环的缩进无效。
  2. 缺少导入(顶部的行),但您可能只是将其从粘贴中排除。
  3. 试着写&#34; utf-8&#34;将字符串编码为&#34; ascii&#34;文件。要解决此问题,我使用codecs模块将文件f打开为&#34; utf-8&#34;。
  4. 文件在循环内部关闭,这意味着在第一次写入文件后,它将被关闭,然后下一次写入将失败(因为它已关闭)。我移动了该行以将文件关闭到循环外部。
  5. 现在据我所知(如果没有你告诉我们你真正想要这个代码做什么),它有效吗?至少没有错误立即弹出......

    import codecs
    import urllib2
    from bs4 import BeautifulSoup
    
    f = codecs.open('wunder-data1.txt', 'w', 'utf-8')
    
    for m in range(1, 13):
        for d in range(1, 32):
            if (m == 2 and d > 28):
                break
            elif (m in [4, 6, 9, 11] and d > 30):
                break
    
            url = "http://www.wunderground.com/history/airport/KBUF/2009/" + str(m) + "/" + str(d) + "/DailyHistory.html"
            page = urllib2.urlopen(url)
            soup = BeautifulSoup(page, "html.parser")
    
            dayTemp = soup.find("span", text="Mean Temperature").parent.find_next_sibling("td").get_text(strip=True)
    
            if len(str(m)) < 2:
                mStamp = '0' + str(m)
            else:
                mStamp = str(m)
            if len(str(d)) < 2:
                dStamp = '0' +str(d)
            else:
                dStamp = str(d)
    
            timestamp = '2009' + mStamp +dStamp
    
            f.write(timestamp.encode('utf-8') + ',' + dayTemp + '\n')
    
    f.close()
    

    正如您对问题的评论所暗示的那样,还有其他一些方面需要改进,我没有提及 - 我只是试图让您发布的代码执行完毕。