对网址中的嵌入链接内容进行网络抓取

时间:2019-03-23 16:56:29

标签: python beautifulsoup request

我正在尝试在商品评论上抓取一个网站,并且不能为一个变量分配多个网址。基本上,我需要将网址抓取到特定内容的网址中。

我有上级网址,还有三个链接页面,用于抓取评论,星号等产品详细信息。将多个URL传递给分配的变量时,将引发“连接适配器错误”。我也曾尝试仅编译或复制相同代码三遍而无济于事。

import requests as r
from bs4 import BeautifulSoup
import csv

url1 = 'http://drd.ba.ttu.edu/isqs6339/imbadproducts/'

filepath = 'dataout.csv'

res = r.get(url1)

res.content

soup = BeautifulSoup(res.content,'lxml')

results = soup.find("a")
    print(results)

print(results['href'])

results = soup.find_all("a")

for l in results:
    print(l['href'])

for l in results:
    print(l.text)

print(res.headers)

product_result = soup.find_all('a')
for pr in product_result:
    print(pr)

search_results = soup.find('div', attrs={'id' : 'searchresults'})

product_result = search_results.find_all('a')
for pr in product_result:
    print(pr)

因此,我提供了一个链接,但是有三个嵌入式链接和要刮擦的不同标签。我从不能够克服连接适配器错误。

0 个答案:

没有答案