使用beautifulsoup在SPAN内部刮取文本

时间:2013-12-11 11:22:36

标签: python beautifulsoup

如何从<span class="arabic_sanad arabic">&amp;中提取文字?来自下面的<span class="arabic_text_details arabic">

<div class="arabic_hadith_full arabic"><span class="arabic_sanad arabic">حَدَّثَنَا أَبُو الْيَمَانِ، قَالَ أَخْبَرَنَا شُعَيْبٌ، قَالَ حَدَّثَنَا أَبُو الزِّنَادِ، عَنِ الأَعْرَجِ، عَنْ أَبِي هُرَيْرَةَ ـ رضى الله عنه ـ أَنَّ رَسُولَ اللَّهِ صلى الله عليه وسلم قَالَ ‏</span>
<span class="arabic_text_details arabic">"‏ فَوَالَّذِي نَفْسِي بِيَدِهِ لاَ يُؤْمِنُ أَحَدُكُمْ حَتَّى أَكُونَ أَحَبَّ إِلَيْهِ مِنْ وَالِدِهِ وَوَلَدِهِ ‏"</span><span class="arabic_sanad arabic">‏‏.‏</span></div>

我已经尝试了以下内容,但我在下面的错误中失败了

print name2
UnicodeEncodeError: 'ascii' codec can't encode characters in position 2-11: ordinal not in range(128)

CODE:

url = "http://www.sunnah.com/bukhari/8"

parser = etree.HTMLParser()
html   = etree.parse(url, parser)
result = etree.tostring(html.getroot(), pretty_print=True, method="html")
soup = BeautifulSoup(result) 

results = soup.findAll("div", {"class" : "actualHadithContainer"})
for result in results :
  ar = result.find("div", {"class" : "arabic_hadith_full arabic"})
  name2 = ar.get_text()
  print name2

2 个答案:

答案 0 :(得分:0)

在打印之前尝试将字符串转换为unicode:

ar = result.find("div", {"class" : "arabic_hadith_full arabic"}, text=True) #only finds those with text inside
name2 = unicode(ar.get_text(), encoding='utf-8')
print name2

答案 1 :(得分:0)

您必须将字符串转换为之前指定的unicode。

 'ResultSet' object has no attribute 'get_text' 

要防止出现此错误,您必须检查ar是否具有get_text方法。 会发生的是,使用旧代码,第一个节点有文本, 你因错误的编码而得到错误。 当你修复程序时,for循环继续,你得到一个没有文本的节点, 所以此时get_text方法不存在。 这样的事情应该有效:

for result in results :
  ar = result.find("div", {"class" : "arabic_hadith_full arabic"})

  if not getattr(ar, get_text):
      continue

  name2 = ar.get_text()

  print u"{}".format(name2)