只是一个简单的问题,我正在尝试创建一个简单的蜘蛛,它将访问网站的sitemap.xml并将网址保存在记事本中,我有下面的代码,但它只保存了记事本中的1个URL
它似乎打印了我在CMD中需要的所有信息,但没有在txt中打印
import urllib2 as ur
import re
f = ur.urlopen(u'http://www.site.co.uk/sitemap.xml')
res = f.readlines()
for d in res:
data = re.findall('<loc>(http:\/\/.+)<\/loc>',d)
for i in data:
print i
file = open("sitemapdata.txt", "w")
file.write(i)
file.close()
提前致谢。
答案 0 :(得分:0)
我一发布这个,就意识到出了什么问题。我不小心遗漏了$1
并需要更改:+'\n'
file = open("sitemapdata.txt", "a")