美丽的汤:从右到左的文字

时间:2013-01-13 17:19:34

标签: python beautifulsoup

现在我正在为这个页面获得Beautiful soup 4中的所有段落标签:

<p class="MsoNormal" style="text-align: center"><b>
                            <span lang="EN-US" style="font-family: Arial; color: blue">
                            <font size="4">1 </font></span>
                            <span lang="AR-SA" dir="RTL" style="font-family: Arial; color: blue">
                            <font size="4">&#1600;</font></span><span lang="EN-US" style="font-family: Arial; color: blue"><font size="4"> 
                            с&#1199;р&#1241; фати&#1211;&#1241;</font></span></b></p>

我正在尝试使用2个字体标记中的内容,但是文本会在右边对齐。我认为这与dir =“RTL”

有关

但我想从左到右。

1 个答案:

答案 0 :(得分:0)

您可以尝试以下内容:

for elem in soup.findAll('font'):
    print elem.text.strip()

这是因为你得到的unicode字符串包含多个属于Separator, Space Category [Zs]的字符。你可以自己看看:

import unicodedata

for c in elem.text:
    print unicodedata.category(c),