Question

如何在break标记之前从段落中获取文本：

      <p align="right">
        <font size="3">
             ABC
         <br/>
             DEF
         <br/>
             FGH
         <br/>
             iJK
        </font>
      </p>

并保存在如下数组中：

text[0] = "ABC"
text[1] = "DEF"
text[2] = "iJK"

我目前正在使用：

paragraph_text = soup.find('p')
print paragraph_text.text

但它会给我一段的所有文字。

Answer 1

找到p元素并迭代.stripped_strings：

for text in soup.p.stripped_strings:
    print(text)

打印：

ABC
DEF
FGH
iJK

或者，如果你想要一个清单：

texts = list(soup.p.stripped_strings)
print(texts)

打印：

['ABC', 'DEF', 'FGH', 'iJK']

Python - 获取段落文本（Web Scraping）

1 个答案: