我遇到了一些实际问题,无法找到解决方案。
在抓取网站时,我只得到23个结果,而我应该得到133个。 该网站告诉我它上面有133个项目。 我试过找到所有“a”但是我只得到了23个结果。
我和其他网站有类似的问题。但是我已经设法通过将页面上的可见项限制为12来解决它,而不是将每个页面刮到一个循环中。
我现在想知道我是否有PC问题或者我的脚本是否存在问题。
我在Windows 10计算机上。
import requests
from bs4 import BeautifulSoup
import csv
import urllib
list_1 = []
TV_category = ["lcd-led-tv-80-cm-alle-producten"]
url_pattern = 'http://www.vandenborre.be/tv-lcd-led/{}'
for item in TV_category:
url = url_pattern.format(item)
r = requests.get(url)
soup = BeautifulSoup(r.content,"lxml")
g_data = soup.find_all("div", {"class": "product"})
for item in g_data:
product_price = item.contents[5].find_all("div", {"class": "prijs"})[0].text.encode("windows-1252").strip()
product_ref = item.contents[3].find_all("h2")[0].text
overzicht=[product_ref, product_price]
list_1.append(overzicht)
outfile = open("./nvdb.csv", "wb")
writer = csv.writer(outfile)
writer.writerow(["Product","Prijs"])
writer.writerows(list_1)