我正在使用BeautifulSoup抓取网站。
<time class="poster-card__date"> "Wed 16"
<span class="event-time">7:00 PM</span>
</time>
python代码的一部分是这样的:
for event_date in soup.findAll('time',{'class':"poster-card__date"}):
print(str(event_date.text))
现在问题是我为所有事件获得的输出是这样的:
Wed 167:00 PM
我想以不同方式抓取它们。实际上,在这里我想忽略事件的时间并且只打印日期部分,即不应该考虑内部<span>
标记。所有事件的理想输出应该是:
Wed 16
答案 0 :(得分:1)
您可以使用contents
获取代码的内容
>>> for event_date in soup.findAll('time',{'class':"poster-card__date"}):
... print(str(event_date.contents[0])),
...
"Wed 16"