在Python 3.4中,我试图建立一个网络爬虫来检查某个文件是否在网站上。问题是文件可以从大约30个不同的名称开始。 (有些只有2个字母,有些有3个字母)。我认为我的问题类似于这个问题(Wildcard or * for matching a datetime python 2.7),但它似乎不适用于Python 3.4。
我的基本代码是这样的;
url_test = 'http://www.example.com/' + 'AAA' + '_file.pdf'
从AAA
所在的预先指定的值列表中搜索我需要做什么。它们可以是2或3个字母数字字符。通配符操作对我也有用。
谢谢!
答案 0 :(得分:1)
如果我不能正确理解问题,那么应该这样做:
for item in aaa_list:
print 'http://www.example.com/' + item + '_file.pdf'
或者,如果您想拥有所有可能值的列表,您也可以保存它:
urls = ['http://www.example.com/' + item + '_file.pdf' for item in aaa_list]
答案 1 :(得分:0)
from itertools import product
import string
for num_letters in [2, 3]:
for chars in product(string.ascii_letters, repeat=num_letters):
prefix = "".join(chars)
url = "http://www.example.com/{}_file.pdf".format(prefix)
# now look for the url