Question

在Python 3.4中，我试图建立一个网络爬虫来检查某个文件是否在网站上。问题是文件可以从大约30个不同的名称开始。（有些只有2个字母，有些有3个字母）。我认为我的问题类似于这个问题（Wildcard or * for matching a datetime python 2.7），但它似乎不适用于Python 3.4。

我的基本代码是这样的;

url_test = 'http://www.example.com/' + 'AAA' + '_file.pdf'

从AAA所在的预先指定的值列表中搜索我需要做什么。它们可以是2或3个字母数字字符。通配符操作对我也有用。

谢谢！

Answer 1

如果我不能正确理解问题，那么应该这样做：

for item in aaa_list:
    print 'http://www.example.com/' + item + '_file.pdf'

或者，如果您想拥有所有可能值的列表，您也可以保存它：

urls = ['http://www.example.com/' + item + '_file.pdf' for item in aaa_list]

Answer 2

from itertools import product
import string

for num_letters in [2, 3]:
    for chars in product(string.ascii_letters, repeat=num_letters):
        prefix = "".join(chars)
        url = "http://www.example.com/{}_file.pdf".format(prefix)
        # now look for the url

从值列表创建字符串

2 个答案: