Question

我需要帮助清理Python Scrapy输出。我有以下简单的蜘蛛，它可以获取元素的内容。

COLUMN_HEADER_1    COLUMN_HEADER_2    COLUMN_HEADER_3
employee_id        employee_name      employee_age
int                varchar            int

命令：

class ScrapyscrapSpider (BaseSpider) :
  name = "ss"
  allowed_domains = ["purecss.io"]
  start_urls = ['http://purecss.io/tables/']

  def parse(self, response) :
    sel = Selector (response)
    item = ScrapscrapyItem ()
    item['Heading'] = str (sel.xpath('/html/body/div[2]/div/div[1]/div/div[1]/h1').extract ())
    item['Content'] = str (sel.xpath ('//table[@class = "pure-table"]//tr[1]/td[2]').extract ())
    item['Source_Website'] = "http://purecss.io"
    return item

输出：

scrapy crawl ss -o data.csv -t csv

我只想将“本田”打印到csv文件，其他一切都被删除。

extract（）[1]仍然给我“[u'Honda'，u'Honda']”,,

Answer 1

你可以按照以下方式制作xpath

item['Heading'] = str (sel.xpath('/html/body/div[2]/div/div[1]/div/div[1]/h1/text()').extract ())
item['Content'] = str (sel.xpath ('//table[@class = "pure-table"]//tr[1]/td[2]/text()').extract ())

清洁Python Scrapy输出

1 个答案: