挖掘Gutenberg项目,无法创建对子目录的访问

时间:2013-11-08 20:00:08

标签: python html text-mining

我试图用Python脚本创建一个访问Gutenberg Project Mirror Archive的循环。我遇到的问题是我可以创建propoer循环,因为子目录会发生变化。例如: http://mirror.its.dal.ca/gutenberg/1/11/11.txt http://mirror.its.dal.ca/gutenberg/2/22/23.txt

等等。我正在使用这个脚本,但它会开始移动数字,结果这个子目录不再与文件匹配:

http://mirror.its.dal.ca/gutenberg/2/23/23.txt
http://mirror.its.dal.ca/gutenberg/2/24/24.txt
http://mirror.its.dal.ca/gutenberg/2/25/25.txt
http://mirror.its.dal.ca/gutenberg/2/26/26.txt
http://mirror.its.dal.ca/gutenberg/2/27/27.txt
http://mirror.its.dal.ca/gutenberg/2/28/28.txt
http://mirror.its.dal.ca/gutenberg/3/29/29.txt
http://mirror.its.dal.ca/gutenberg/3/30/30.txt

我使用这种基本循环:

liston = [ 1, 2, 3, 4 , 5,6,7,8,9,]
pos = 10
luve= [1, 2,3,4,5,6,7,8,9]
les = 0
for y in luve:

    les = les +1


    for x in liston:
        pos = pos + 1


        print "http://mirror.its.dal.ca/gutenberg/"+str(les)+"/"+str(pos)+"/"+str(pos)+".txt"
非常感谢你。

1 个答案:

答案 0 :(得分:0)

template = "http://mirror.its.dal.ca/gutenberg/{root}/{index}/{index}.txt"
for root in range(1, 10):
    for c_index in range(0, 10):
        print template.format(root=root, index=(root*10+c_index))