即使什么也没留下,我的脚本仍在继续打印

时间:2018-07-04 17:20:17

标签: python python-3.x web-scraping openpyxl

我已经使用openpyxl在python中编写了一个脚本,从names中获取了一些values及其对应的Sheet1并将其用作要在网址以使其成为有效网址。问题是当我运行脚本时,即使Sheet1中只有5个网址,它也会继续打印网址。到目前为止,我所知道的,我定义max row的方式是准确的。最大行数如何变为无限?

这是脚本:

import requests
from openpyxl import load_workbook

wb = load_workbook('ReverseSearch.xlsx')
ws = wb['Sheet1']

def search_name(session,query,query1):
    session.headers = {"User-Agent":"Mozilla/5.0"}
    res = session.get(url.format(query,query1))
    print(res.url)

if __name__ == '__main__':
    url = "https://www.yellowpages.com/los-angeles-ca/mip/{}-{}"
    for row in range(2, ws.max_row + 1): #I used row 2 cause there are headers in row 1
        key = ws.cell(row=row,column=1).value
        key1 = ws.cell(row=row,column=2).value
        session = requests.Session()
        search_name(session,key,key1)

names我用过:

café claude
sears fine food
chaat cafe
bean bag coffee house
primo patio cafe

values我用过:

3392129
473113343
18528177
12192803
641231

我应该只有5个链接(完全合格),但是当没有参数时,我得到的是空白网址。

https://www.yellowpages.com/san-francisco-ca/mip/cafe-claude-3392129?lid=3392129
https://www.yellowpages.com/san-francisco-ca/mip/sears-fine-food-473113343?lid=473113343
https://www.yellowpages.com/san-francisco-ca/mip/chaat-cafe-18528177?lid=18528177
https://www.yellowpages.com/san-francisco-ca/mip/bean-bag-coffee-house-12192803?lid=12192803
https://www.yellowpages.com/san-francisco-ca/mip/primo-patio-cafe-641231?lid=641231
https://www.yellowpages.com/los-angeles-ca/mip/None-None
https://www.yellowpages.com/los-angeles-ca/mip/None-None
https://www.yellowpages.com/los-angeles-ca/mip/None-None 

我希望我的脚本在打印5个链接时停止。

顺便说一下,这是网址的样子:

url = "https://www.yellowpages.com/los-angeles-ca/mip/{}-{}"

1 个答案:

答案 0 :(得分:1)

我将其作为评论,但我没有足够的代表。

我第一个解决问题的步骤就是检查自己能得到什么?

print(ws.max_row)

打印7吗?

如果打印的数字更大,则可能是在计算文档中的空行,在这种情况下,您需要检查单元格的内容以免循环