现在我正在为这个页面获得Beautiful soup 4中的所有段落标签:
<p class="MsoNormal" style="text-align: center"><b>
<span lang="EN-US" style="font-family: Arial; color: blue">
<font size="4">1 </font></span>
<span lang="AR-SA" dir="RTL" style="font-family: Arial; color: blue">
<font size="4">ـ</font></span><span lang="EN-US" style="font-family: Arial; color: blue"><font size="4">
сүрә фатиһә</font></span></b></p>
我正在尝试使用2个字体标记中的内容,但是文本会在右边对齐。我认为这与dir =“RTL”
有关但我想从左到右。
答案 0 :(得分:0)
您可以尝试以下内容:
for elem in soup.findAll('font'):
print elem.text.strip()
这是因为你得到的unicode字符串包含多个属于Separator, Space Category [Zs]
的字符。你可以自己看看:
import unicodedata
for c in elem.text:
print unicodedata.category(c),