我正在尝试在商品评论上抓取一个网站,并且不能为一个变量分配多个网址。基本上,我需要将网址抓取到特定内容的网址中。
我有上级网址,还有三个链接页面,用于抓取评论,星号等产品详细信息。将多个URL传递给分配的变量时,将引发“连接适配器错误”。我也曾尝试仅编译或复制相同代码三遍而无济于事。
import requests as r
from bs4 import BeautifulSoup
import csv
url1 = 'http://drd.ba.ttu.edu/isqs6339/imbadproducts/'
filepath = 'dataout.csv'
res = r.get(url1)
res.content
soup = BeautifulSoup(res.content,'lxml')
results = soup.find("a")
print(results)
print(results['href'])
results = soup.find_all("a")
for l in results:
print(l['href'])
for l in results:
print(l.text)
print(res.headers)
product_result = soup.find_all('a')
for pr in product_result:
print(pr)
search_results = soup.find('div', attrs={'id' : 'searchresults'})
product_result = search_results.find_all('a')
for pr in product_result:
print(pr)
因此,我提供了一个链接,但是有三个嵌入式链接和要刮擦的不同标签。我从不能够克服连接适配器错误。