使用Python BeautifulSoup从网页中删除没有id或类的元素

时间:2015-12-19 12:05:22

标签: python beautifulsoup

如果元素具有id或类,我知道如何从网页中抓取数据。

e.g。这里,soup是一个BeautifulSoup对象。

for item in soup.findAll('a',{"class":"class_name"}):
    title = item.string
    print(title+"\n")

如果元素没有id或类,我们怎么能这样做?例如,没有id或类的段落元素。

或者在更糟糕的情况下,如果我们需要像以下一样抓取一些纯文本会发生什么?

<body>
<p>YO!</p>
hello world!!
</body>

例如,如何在上述页面源中仅打印hello world!!? 它没有id或类。

0 个答案:

没有答案