Scrapy:如何在不带“ \ n”的情况下获取所有内容HTML

时间:2019-04-29 05:06:19

标签: python web-scraping scrapy

嗨,我在没有“ \ n” 的情况下获取HTML代码时遇到了问题,但我尝试了 normalize-space 函数,但似乎只得到了第一段(不是整个消息)

这是我正在使用的代码

response.xpath("normalize-space(//div[@class = 'messageContent'])").extract_first()

URL:https://teslamotorsclub.com/tmc/threads/tesla-tsla-the-investment-world-the-2019-investors-roundtable.139047/


没有规范化空间

<div> class="sample">\n
<span style="color:red;">Sample Message\n</span</div>

具有规范化空间

Sample Message

我想要的是也保存不带“ \ n”的HTML代码

<div> class="sample">
<span style="color:red;">Sample Message</span</div>

1 个答案:

答案 0 :(得分:1)

如果您只想从输出中删除换行符,请执行以下操作:

response.xpath("//div[@class = 'messageContent']").extract_first().replace('\n', '')