这是我的蜘蛛代码
class DmozSpider(BaseSpider):
5 name = "dmoz"
6 allowed_domains = ["dmoz.org"]
7 start_urls = [
8 "file:///home/ubuntu/xxx/test.html",
9 ]
10 def parse(self, response):
11 hxs = HtmlXPathSelector(response)
12 sites = hxs.select("//li")
13 items = []
14 for site in sites:
15
16 item = DmozItem()
17 item['title'] = site.select('a/text()').extract()
18 item['link'] = site.select('a/@href').extract()
19 item['desc'] = site.select('text()').extract()
20 items.append(item)
21 return items
现在我想在日志文件中写入数据,如名称:{{name}},link = {{link}}用于挖掘,因为它会对网站进行实时抓取。
我该怎么做
答案 0 :(得分:3)
这是答案,但我假设您刚刚复制了您已有的代码,否则您将知道如何使用文件IO,或者至少有能力研究在本网站上已经覆盖了一百万次的主题单独
...
item['title'] = site.select('a/text()').extract()
item['link'] = site.select('a/@href').extract()
item['desc'] = site.select('text()').extract()
items.append(item)
with open('log.txt', 'a') as f:
f.write('name: {0}, link: {1}\n'.format(item['title'], item['link']))