year = 2014
url = 'http://en.wikipedia.org/wiki/List_of_Bollywood_films_of_2014'
page = urllib.urlopen(url)
soup = BeautifulSoup(page.read())
movieList = soup.findAll('table',{'class','wikitable'})
for list in movieList:
rows = list.findAll('tr')
for row in rows[:2]:
#print row
cells = row.findAll('td')
i = len(cells)
releaseDate = unicode(cells[i-5].find(text=True))
month = unicode(cells[i-6].findAll(text=True))
month = str(month)
month = ''.join(str(item.strip()) for item in month)
print "month: ",month
打印 月:[你' A',你' \ n',你' \ nR']
我希望将此日期存储为2014年4月4日。 我怎样才能将月份作为APR或4月份,然后将其存储为日期?
答案 0 :(得分:1)
>>> month = [u'A', u'\nP', u'\nR']
>>> ''.join(item.strip() for item in month)
u'APR'
您可以使用{"JAN": "January", "FEB": "February", ...}
这样的词典来获取每个缩写的相关月份名称。
答案 1 :(得分:0)
而不是做
month = unicode(cells[i-6].findAll(text=True))
我做了
month = cells[i-6]
month = [ele.get_text().strip() for ele in month]
month = ''.join(month)
,提供month = u'A\nP\nR'
现在使用
进行映射monthdict = {'A\nP\nR' : 'April'}