这是我的链接提取器。它会通过链接进行爬网并将其保存在一个csv文件中,但是值之间存在空格,即如果值保存在第1行,则它保存在第3行而第2行是空白。我可以将其从excel本身中删除,但是当有大量数据时excel会挂起。当我尝试加载链接以从中提取数据时,这给我带来了问题。如何以没有空格的方式保存数据?谢谢。
import scrapy
class DummySpider(scrapy.Spider):
name = 'dummyspider'
allowed_domains = ['alibaba.com']
start_urls = ['https://www.alibaba.com/countrysearch/CN/China/products/A.html'
]
def parse(self, response):
link = response.xpath('//*[@class="column one3"]/a/@href').extract()
for item in zip(link):
scraped_info = {
'link':item[0],
}
yield scraped_info
答案 0 :(得分:0)
为什么不修剪刮掉的弦?
这里https://docs.python.org/2/library/stdtypes.html#str.strip
的注释类似(根据您的代码段进行猜测)
scraped_info = {
'link':item[0].strip(),
}
答案 1 :(得分:0)
尝试一下:
response.xpath('normalize-space(//*[@class="column one3"]/a/@href)').extract()