Question

我正在使用python和beautifulsoup模块又名bs4。我要抓取的页面具有以下格式：

<div class="Halls_spec">
   <b>Hall1</b> Thurs.-Wedn.: 21.30

我正在使用以下代码来获取信息：

movie_date = table.select_one("div.Halls_spec")  
movieDate=(movie_date.text.strip())

我在其中获得以下字符串的地方：Hall1 Thurs.-Wedn. 21.30

我应该如何分别获得大厅名称和日期值？

Answer 1

您可以将 b 标记与 next_sibling 一起使用以提取日期。

movie_date = table.select_one("div.Halls_spec")
movie_date.b.text.strip()
# 'Hall1'
movie_date.b.next_sibling
# ' Thurs.-Wedn.: 21.30'

或者您可以使用 next_elements 获取可以迭代的生成器对象：

for val in movie_date.b.next_elements:
     print(val)

# Hall1
#  Thurs.-Wedn.: 21.30