我正在抓第二列中有额外信息的双列表。
state | count | pct
Florida | 1 (1) | 0.5
Colorado | 10 (<1)| 1.0
当我运行我的脚本时,我通常得到一个变体:
1 \xa0\xa0\xa0\xa0\xa0(<1)
或
10 \xa0\xa0\xa0\xa0\xa0(10)
为第二个细胞。
我只对第一个数字感兴趣,所以BeautifulSoup中的输出如下:
[[u'Florida', u'1'], [u'Colorado', u'10']]
这样的事情可能吗?
答案 0 :(得分:1)
假设你有rows
:
>>> rows = [
... [u'Florida', u'1 \xa0\xa0\xa0\xa0\xa0(1)'],
... [u'Colorado', u'10 \xa0\xa0\xa0\xa0\xa0(<1)']
... ]
拆分count
并获取第一部分:
>>> rows = [[state, count.split()[0]] for state, count in rows]
>>> rows
[[u'Florida', u'1'], [u'Colorado', u'10']]