For循环不适用于使用python进行网络抓取Google搜索

时间:2020-03-11 20:12:05

标签: python pandas loops for-loop web-scraping

我正在使用关键字列表在网络上搜寻Google搜索。用于抓取单个页面的嵌套For循环效果很好。但是,列表中的另一个for循环搜索关键字不起作用,因为我打算针对每个搜索结果抓取数据。结果没有获得前两个关键字的搜索结果,但仅得到了最后一个关键字的结果。

代码如下:

browser = webdriver.Chrome(r"C:\...\chromedriver.exe")

df = pd.DataFrame(columns = ['ceo', 'value'])

baseUrl = 'https://www.google.com/search?q='
ceo_list = ["Bill Gates", "Elon Musk", "Warren Buffet"]
values =[]


for ceo in ceo_list:
    browser.get(baseUrl + ceo)
    table = browser.find_elements_by_css_selector('div.ifM9O') 

    for row in table:
        ceo = str(([c.text for c in row.find_elements_by_css_selector('div.kno-ecr-pt.PZPZlf.gsmt.i8lZMc')])).strip('[]').strip("''")
        value = str(([c.text for c in row.find_elements_by_css_selector('div.Z1hOCe')])).strip('[]').strip("''")

    ceo = pd.Series(ceo) 
    value = pd.Series(value)

    df = df.assign(**{'ceo': ceo, 'value': value}) 


print(df)

browser.close()

这是输出:

              ceo                                              value
0  Warren Buffett  Born: August 30, 1930 (age 89 years), Omaha, N...

我期望的是:

              ceo                                              value
0  Bill Gates      Born:..........
1  Elon Musk       Born:...........
2  Warren Buffett  Born: August 30, 1930 (age 89 years), Omaha, N...

不确定哪一部分丢失了。

1 个答案:

答案 0 :(得分:0)

您需要将ceo创建为列表,然后将其添加到for循环中,以免覆盖它