(免责声明:我是新手,如果这个问题很明显,我很抱歉)
你好
我构建了一个小脚本,以便首先在本地文件中找到HTML
标记的某些部分,然后显示没有HTML
标记的信息。
为此,我使用了bs4
和find_all
/ get_text
。看看:
from bs4 import BeautifulSoup
with open("/Users/user1/Desktop/testdatapython.html") as fp:
soup = BeautifulSoup(fp, "lxml")
titleResults = soup.find_all('span', attrs={'class':'caption-subject'})
firstResult = titleResults[0]
firstStripped = firstResult.get_text()
print(firstStripped)
到目前为止,这实际上是可行的。但我想对titleResults
的所有值(不仅是第一个值)执行此操作。但是我无法使用get_text
处理数组。
哪种方法最好的做到这一点? titleResults
的值数量始终在变化,因为本地html文件只是一个示例。
提前谢谢!
P.S。我已经查看了这个相关的线程,但不足以令人遗憾地理解或解决问题:
答案 0 :(得分:1)
find_all返回一个列表
for result in titleResults:
stripped = result.get_text()
print(stripped)