Python:合并和编辑

时间:2015-02-11 11:08:20

标签: python python-2.7

year = 2014
url = 'http://en.wikipedia.org/wiki/List_of_Bollywood_films_of_2014'
page = urllib.urlopen(url)
soup = BeautifulSoup(page.read())
movieList = soup.findAll('table',{'class','wikitable'})
for list in movieList:
        rows = list.findAll('tr')
        for row in rows[:2]:
            #print row
            cells = row.findAll('td')
            i = len(cells)
            releaseDate = unicode(cells[i-5].find(text=True))
            month = unicode(cells[i-6].findAll(text=True))
            month = str(month)
            month = ''.join(str(item.strip()) for item in month)
            print "month: ",month

打印 月:[你' A',你' \ n',你' \ nR']

我希望将此日期存储为2014年4月4日。 我怎样才能将月份作为APR或4月份,然后将其存储为日期?

2 个答案:

答案 0 :(得分:1)

>>> month = [u'A', u'\nP', u'\nR']
>>> ''.join(item.strip() for item in month)
u'APR'

您可以使用{"JAN": "January", "FEB": "February", ...}这样的词典来获取每个缩写的相关月份名称。

答案 1 :(得分:0)

而不是做

month = unicode(cells[i-6].findAll(text=True))

我做了

month = cells[i-6]
month = [ele.get_text().strip() for ele in month]
month = ''.join(month)

,提供month = u'A\nP\nR'

现在使用

进行映射
monthdict = {'A\nP\nR' : 'April'}