我正在尝试从列表中获取一个URL(~1500个条目)并使用 twill lib逐个访问它们。我使用斜纹布的原因是因为我喜欢它,我可能不得不在以后执行基本的填充。
我遇到的问题是声明循环的内容。 我确信这实际上很难解决,但目前我不会想到这个解决方案。
from twill.commands import *
CONTAINER = open('urls.txt') #opening file
CONTAINER_CONTENTS = CONTAINER.readlines() #reading
CONTAINER_CONTENTS = map(lambda s: s.strip, CONTAINER_CONTENTS) #this is just to remove the ^N (newline) that was appended to each URL
for i in CONTAINER_CONTENTS:
<educate me>
..
go(url)
etc.
先谢谢。
答案 0 :(得分:0)
from twill.commands import *
with open('urls.txt') as inf:
urls = (line.strip() for line in inf)
for url in urls:
go(url)
# now do something with the page