Question

我试图使用Beautiful Soup抓取一个网页来获取2017年最大曲调的列表。

我已经在div到ul到span到li的html来源中尝试了一些参考文献，但我似乎无法从中获取任何内容这页纸。

我无法解决这个问题，因为我已经编写了类似的代码来解析其他有效的网站。这是我的代码：

from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup

my_url = 'http://www.bbc.co.uk/programmes/b09jvtff'

# Opening up URL and grabbing info
uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()

#html parsing
page_soup = soup(page_html, "html.parser")
container_a = page_soup.findAll("span",{"class": "artist"})
print(container_a)

Answer 1

如果您检查在Chrome浏览器中加载页面时正在执行的请求，您将意识到这是包含您需要的信息的URL：http://www.bbc.co.uk/programmes/b09jvtdf/segments.inc。用这个替换URL，你就会得到你需要的东西。

此外，如果您调试当前正在检索的HTML，您会看到您正在寻找的内容不存在。

<强> P.S。刮掉这个网站可能是违法的。检查T＆amp; Cs。

Web Scrape失败 - 美丽的汤

1 个答案: