Question

这是我的链接提取器。它会通过链接进行爬网并将其保存在一个csv文件中，但是值之间存在空格，即如果值保存在第1行，则它保存在第3行而第2行是空白。我可以将其从excel本身中删除，但是当有大量数据时excel会挂起。当我尝试加载链接以从中提取数据时，这给我带来了问题。如何以没有空格的方式保存数据？谢谢。

import scrapy


class DummySpider(scrapy.Spider):
    name = 'dummyspider'
    allowed_domains = ['alibaba.com']
    start_urls = ['https://www.alibaba.com/countrysearch/CN/China/products/A.html'
                ]

    def parse(self, response):
        link = response.xpath('//*[@class="column one3"]/a/@href').extract()

        for item in zip(link):
            scraped_info = {
                'link':item[0],

            }
            yield scraped_info

Answer 1

为什么不修剪刮掉的弦？

这里https://docs.python.org/2/library/stdtypes.html#str.strip

的注释

类似（根据您的代码段进行猜测）

 scraped_info = {
            'link':item[0].strip(),

        }

Answer 2

尝试一下：

response.xpath('normalize-space(//*[@class="column one3"]/a/@href)').extract()

如何删除csv中报废数据之间的空白？

2 个答案: