使用BeautifulSoup处理HTML中的非AscII字符

时间:2013-11-05 20:28:53

标签: python python-2.7 beautifulsoup

我正在从一个网站上提取数据,当查看源代码时使用<td class="xxx">&nbsp;</td>,但是当使用漂亮的汤时,会在python解释器中显示为<td class="xxx">Tá</td>。我正在尝试定位该td中的数据。现在它是空的。像下面这样的东西没有用,因为这不是Ascii角色。帮助!!:

result = <td class="xxx">&nbsp;</td>

#Check to see if it is returning an empty string
if not result:
    print 'empty'

1 个答案:

答案 0 :(得分:0)

我一直在使用Unidecode包来帮助我解码上游客户端传递给我的unicode。它似乎适用于我目前的所有测试用例。基本上它需要unicode并尝试将其转换为ASCII等价物。