Question

只是一个简单的问题，我正在尝试创建一个简单的蜘蛛，它将访问网站的sitemap.xml并将网址保存在记事本中，我有下面的代码，但它只保存了记事本中的1个URL

它似乎打印了我在CMD中需要的所有信息，但没有在txt中打印

import urllib2 as ur
import re

f = ur.urlopen(u'http://www.site.co.uk/sitemap.xml')
res = f.readlines()
for d in res:
  data = re.findall('<loc>(http:\/\/.+)<\/loc>',d)
  for i in data:
    print i
    file = open("sitemapdata.txt", "w")
    file.write(i)
    file.close()

提前致谢。

Answer 1

我一发布这个，就意识到出了什么问题。我不小心遗漏了$1并需要更改：+'\n'

file = open("sitemapdata.txt", "a")

简单的站点地图刮刀，保存为.txt

1 个答案: