我正在从网站列表中成功提取我需要的文字。问题是当我以csv格式保存它时,由于文本中的行之间的长文本和中断,一些行会变得混乱。 例如:
(无法上传图片:()
因此,以0/1开头的行是不同的网站,但此图像中的最后一个网站在csv文件中启动了几个新行。这阻止我继续进行文本分析。
任何帮助都将受到高度赞赏,因为到目前为止找不到解决方案。
非常感谢
编辑 - 添加代码: 这一行:
data = "".join(sel.select("//body//text()").extract()).strip()
也不是这个代码行:
data = " ".join(" ".join(sel.select("//body//text()").extract()).strip().split())
无效