网上有一些像这样的问题,但是我查看了它们,但没有人帮助过我,我目前正在制作一个从http://www.supremenewyork.com/shop/all/accessories中提取项目名称的脚本
我希望它从最高境界提取这些信息但是我遇到了代理问题,但是现在我每次运行它时都会遇到这个脚本我得到了标题中上面列出的错误。
这是我的剧本:
import requests
from bs4 import BeautifulSoup
URL = ('http://www.supremenewyork.com/shop/all/accessories')
proxy_script = requests.get(URL).text
soup = BeautifulSoup(proxy_script, 'lxml')
for item in soup.find_all('div', class_='inner-article'):
name = soup.find('h1', itemprop='name').text
print(name)
我总是收到这个错误,当我在itemprop=name
结束时运行没有.text的脚本时,我只得到一堆无
像这样:
None
None
None etc......
可用于打印的项目的确切数量
答案 0 :(得分:0)
我们开始,我已经评论过我在下面使用过的代码。
我们使用class_='something
的原因是因为单词class
是为Python中的类保留的。
网址=('http://www.supremenewyork.com/shop/all/accessories')
#UK_Proxy1 = '178.62.13.163:8080'
#proxies = {
# 'http': 'http://' + UK_Proxy1,
#'https': 'https://' + UK_Proxy1
#}
#proxy_script = requests.get(URL, proxies=proxies).text
proxy_script = requests.get(URL).text
soup = BeautifulSoup(proxy_script, 'lxml')
thetable = soup.find('div', class_='turbolink_scroller')
items = thetable.find_all('div', class_='inner-article')
for item in items:
only_text = item.h1.a.text
# by doing .<tag> we extract information just from that tag
# example bsobject = <html><body><b>ey</b></body</html>
# if we print bsobject.body.b it will return `<b>ey</b>`
color = item.p.a.text
print(only_text, color)