Python - 获取段落文本(Web Scraping)

时间:2016-02-16 05:20:23

标签: python html web-scraping beautifulsoup

如何在break标记之前从段落中获取文本:

      <p align="right">
        <font size="3">
             ABC
         <br/>
             DEF
         <br/>
             FGH
         <br/>
             iJK
        </font>
      </p>

并保存在如下数组中:

text[0] = "ABC"
text[1] = "DEF"
text[2] = "iJK"

我目前正在使用:

paragraph_text = soup.find('p')
print paragraph_text.text

但它会给我一段的所有文字。

1 个答案:

答案 0 :(得分:1)

找到p元素并迭代.stripped_strings

for text in soup.p.stripped_strings:
    print(text)

打印:

ABC
DEF
FGH
iJK

或者,如果你想要一个清单:

texts = list(soup.p.stripped_strings)
print(texts)

打印:

['ABC', 'DEF', 'FGH', 'iJK']