Question

我正在尝试使用BeauitfulSoup在某些页面上抓取数据，但似乎无法获得所需的数据。我在拆分数据时遇到问题。我将在下面发布我的代码，但是我想做的是获取每个地址并将其拆分。例如，如果您尝试下面的代码，我可以获得所需的数据，但似乎无法弄清楚如何在
标记上进行拆分。我正在尝试的输出是address = ['2 Warriston's Close','High Street, Edinburgh EH1 1PG','United Kingdom']

from bs4 import BeautifulSoup as bs
import requests

url = 'https://www.hauntedplaces.org/item/mary-kings-close/'

page = requests.get(url)

soup = bs(page.text, 'lxml')

region = soup.select('dd.data')[0]
# Need something here to split the region variable so I can separate for csv file. 
# Trying to use soup.select('dd.data')[0].split() but no avail. 
print(region)

Answer 1

因此，您想要获取HTML标签中的文本，而不是HTML。 BeautifulSoup具有text属性。因此，在这种情况下，只需添加以下行即可获得所需的内容：

print(region.text.split('\n')[:3])

使用python分割抓取的数据时出现问题

1 个答案: