如果元素具有id或类,我知道如何从网页中抓取数据。
e.g。这里,soup
是一个BeautifulSoup对象。
for item in soup.findAll('a',{"class":"class_name"}):
title = item.string
print(title+"\n")
如果元素没有id或类,我们怎么能这样做?例如,没有id或类的段落元素。
或者在更糟糕的情况下,如果我们需要像以下一样抓取一些纯文本会发生什么?
<body>
<p>YO!</p>
hello world!!
</body>
例如,如何在上述页面源中仅打印hello world!!
?
它没有id或类。