我正在从一个网站上提取数据,当查看源代码时使用<td class="xxx"> </td>
,但是当使用漂亮的汤时,会在python解释器中显示为<td class="xxx">Tá</td>
。我正在尝试定位该td中的数据。现在它是空的。像下面这样的东西没有用,因为这不是Ascii角色。帮助!!:
result = <td class="xxx"> </td>
#Check to see if it is returning an empty string
if not result:
print 'empty'
答案 0 :(得分:0)
我一直在使用Unidecode包来帮助我解码上游客户端传递给我的unicode。它似乎适用于我目前的所有测试用例。基本上它需要unicode并尝试将其转换为ASCII等价物。