我需要帮助清理Python Scrapy输出。我有以下简单的蜘蛛,它可以获取元素的内容。
COLUMN_HEADER_1 COLUMN_HEADER_2 COLUMN_HEADER_3
employee_id employee_name employee_age
int varchar int
命令:
class ScrapyscrapSpider (BaseSpider) :
name = "ss"
allowed_domains = ["purecss.io"]
start_urls = ['http://purecss.io/tables/']
def parse(self, response) :
sel = Selector (response)
item = ScrapscrapyItem ()
item['Heading'] = str (sel.xpath('/html/body/div[2]/div/div[1]/div/div[1]/h1').extract ())
item['Content'] = str (sel.xpath ('//table[@class = "pure-table"]//tr[1]/td[2]').extract ())
item['Source_Website'] = "http://purecss.io"
return item
输出:
scrapy crawl ss -o data.csv -t csv
我只想将“本田”打印到csv文件,其他一切都被删除。
extract()[1]仍然给我“[u'Honda',u'Honda']”,,
答案 0 :(得分:2)
你可以按照以下方式制作xpath
item['Heading'] = str (sel.xpath('/html/body/div[2]/div/div[1]/div/div[1]/h1/text()').extract ())
item['Content'] = str (sel.xpath ('//table[@class = "pure-table"]//tr[1]/td[2]/text()').extract ())