简单的站点地图刮刀,保存为.txt

时间:2015-06-03 13:40:55

标签: python

只是一个简单的问题,我正在尝试创建一个简单的蜘蛛,它将访问网站的sitemap.xml并将网址保存在记事本中,我有下面的代码,但它只保存了记事本中的1个URL

它似乎打印了我在CMD中需要的所有信息,但没有在txt中打印

import urllib2 as ur
import re

f = ur.urlopen(u'http://www.site.co.uk/sitemap.xml')
res = f.readlines()
for d in res:
  data = re.findall('<loc>(http:\/\/.+)<\/loc>',d)
  for i in data:
    print i
    file = open("sitemapdata.txt", "w")
    file.write(i)
    file.close()

提前致谢。

1 个答案:

答案 0 :(得分:0)

我一发布这个,就意识到出了什么问题。我不小心遗漏了$1并需要更改:+'\n'

file = open("sitemapdata.txt", "a")