Question

（免责声明：我是新手，如果这个问题很明显，我很抱歉）

你好

我构建了一个小脚本，以便首先在本地文件中找到HTML标记的某些部分，然后显示没有HTML标记的信息。

为此，我使用了bs4和find_all / get_text。看看：

from bs4 import BeautifulSoup
with open("/Users/user1/Desktop/testdatapython.html") as fp:
    soup = BeautifulSoup(fp, "lxml")

titleResults = soup.find_all('span', attrs={'class':'caption-subject'})

firstResult = titleResults[0]

firstStripped = firstResult.get_text()

print(firstStripped)

到目前为止，这实际上是可行的。但我想对titleResults的所有值（不仅是第一个值）执行此操作。但是我无法使用get_text处理数组。

哪种方法最好的做到这一点？ titleResults的值数量始终在变化，因为本地html文件只是一个示例。

提前谢谢！

P.S。我已经查看了这个相关的线程，但不足以令人遗憾地理解或解决问题：

BeautifulSoup get_text from find_all

Answer 1

find_all返回一个列表

for result in titleResults:
    stripped = result.get_text()
    print(stripped)

使用get_text处理数组的所有值

1 个答案: