我正在尝试使用BeauitfulSoup在某些页面上抓取数据,但似乎无法获得所需的数据。我在拆分数据时遇到问题。我将在下面发布我的代码,但是我想做的是获取每个地址并将其拆分。例如,如果您尝试下面的代码,我可以获得所需的数据,但似乎无法弄清楚如何在
标记上进行拆分。我正在尝试的输出是address = ['2 Warriston's Close','High Street, Edinburgh EH1 1PG','United Kingdom']
from bs4 import BeautifulSoup as bs
import requests
url = 'https://www.hauntedplaces.org/item/mary-kings-close/'
page = requests.get(url)
soup = bs(page.text, 'lxml')
region = soup.select('dd.data')[0]
# Need something here to split the region variable so I can separate for csv file.
# Trying to use soup.select('dd.data')[0].split() but no avail.
print(region)
答案 0 :(得分:0)
因此,您想要获取HTML标签中的文本,而不是HTML。 BeautifulSoup具有text
属性。因此,在这种情况下,只需添加以下行即可获得所需的内容:
print(region.text.split('\n')[:3])