Scrapy - 以csv格式的杂乱文本

时间:2015-05-05 09:21:41

标签: csv text scrapy

我正在从网站列表中成功提取我需要的文字。问题是当我以csv格式保存它时,由于文本中的行之间的长文本和中断,一些行会变得混乱。 例如:

(无法上传图片:()

因此,以0/1开头的行是不同的网站,但此图像中的最后一个网站在csv文件中启动了几个新行。这阻止我继续进行文本分析。

任何帮助都将受到高度赞赏,因为到目前为止找不到解决方案。

非常感谢

编辑 - 添加代码: 这一行:

data = "".join(sel.select("//body//text()").extract()).strip()

也不是这个代码行:

data = " ".join(" ".join(sel.select("//body//text()").extract()).strip().split())

无效

0 个答案:

没有答案