如何删除csv中报废数据之间的空白?

时间:2018-08-19 22:45:32

标签: python csv web-scraping scrapy

这是我的链接提取器。它会通过链接进行爬网并将其保存在一个csv文件中,但是值之间存在空格,即如果值保存在第1行,则它保存在第3行而第2行是空白。我可以将其从excel本身中删除,但是当有大量数据时excel会挂起。当我尝试加载链接以从中提取数据时,这给我带来了问题。如何以没有空格的方式保存数据?谢谢。

import scrapy


class DummySpider(scrapy.Spider):
    name = 'dummyspider'
    allowed_domains = ['alibaba.com']
    start_urls = ['https://www.alibaba.com/countrysearch/CN/China/products/A.html'
                ]

    def parse(self, response):
        link = response.xpath('//*[@class="column one3"]/a/@href').extract()

        for item in zip(link):
            scraped_info = {
                'link':item[0],

            }
            yield scraped_info

2 个答案:

答案 0 :(得分:0)

为什么不修剪刮掉的弦?

这里https://docs.python.org/2/library/stdtypes.html#str.strip

的注释

类似(根据您的代码段进行猜测)

 scraped_info = {
            'link':item[0].strip(),

        }

答案 1 :(得分:0)

尝试一下:

response.xpath('normalize-space(//*[@class="column one3"]/a/@href)').extract()