Question

我已为一个关键字准备好代码，并且工作正常。接下来的问题是我想对10个不同的关键字进行刮擦，并将它们保存在一个csv文件中，并在列/行上使用关键字名称。我想我们可以提供csv文件作为输入，它逐个选择关键字并刮掉。这是代码：

import requests    
from bs4 import BeautifulSoup
import pandas as pd

base_url = "http://www.amazon.in/s/ref=sr_pg_2?
rh=n%3A4772060031%2Ck%3Ahelmets+for+men&keywords=helmets+for+men&ie=UTF8"
#excluding page from base_url for further adding
res = []
for page in range(1,3): 
  request = requests.get(base_url + '&page=' + str(page), headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'}) # here adding page    
  if request.status_code == 404: #added just in case of error
     break
  soup = BeautifulSoup(request.content, "lxml")
  for url in soup.find_all('li', class_ = 's-result-item'):
    res.append([url.get('data-asin'), url.get('id')])
df = pd.DataFrame(data=res, columns=['Asin', 'Result'])    
df.to_csv('hel.csv')

Answer 1

我制作了一些示例关键字，替换所需的关键字。

import requests    
from bs4 import BeautifulSoup
import pandas as pd

base_url = "http://www.amazon.in/s/ref=sr_pg_2?rh=n%3A4772060031%2Ck%3Ahelmets+for+men&ie=UTF8"

keywords_list = ['helmets for men', 'helmets for women']
keyword = 'helmets for men'
#excluding page from base_url for further adding
res = []
for page in range(1,3): 
    for keyword in keywords_list:
        request = requests.get(base_url + '&keywords=' + requests.utils.quote(keyword) + '&page=' + str(page), headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'}) # here adding page    
        if request.status_code == 404: #added just in case of error
            break
        soup = BeautifulSoup(request.content, "lxml")
        for url in soup.find_all('li', class_ = 's-result-item'):
            res.append([url.get('data-asin'), url.get('id'), keyword])

df = pd.DataFrame(data=res, columns=['Asin', 'Result', 'keyword'])    
df.to_csv('hel.csv')

想要使用URL中的10个不同关键字为2页抓取数据，并使用Python 3.6.2和BS4将抓取的数据写入csv

1 个答案: