如何从python中的删除数据中删除“\ n”?

时间:2018-01-20 16:34:56

标签: python scrapy

此链接中有关于已删除数据的文本文件: https://drive.google.com/file/d/1iu_rJUb-3EROWbctugdlUp9w0JNeiTvY/view?usp=sharing

我想要使用Scrapy从已删除的数据中删除\n\t个字符。

def parse_item(self, response):
    item = TutorialItem()
    sel = Selector(response)
    item['url'] = response.url[0].strip()
    item['title'] = response.meta['link_text']

    # extracting basic body

    item['body'] = w3lib.html.remove_tags(w3lib.html.remove_tags_with_content(sel.xpath('//body').extract()[0].replace("\r\n", " "),which_ones=('script',)))


    with open('abc.txt', 'a') as f:
      f.write('body: {0}\n'.format(item['body']))

    return item

在上面的代码中,我删除了一些\r\n字符,但不是全部。

item['body'] = w3lib.html.remove_tags(w3lib.html.remove_tags_with_content(sel.xpath('//body').extract()[0].replace("\r\n", " "), which_ones=('script',)))

1 个答案:

答案 0 :(得分:1)

尝试单独更换它们:

EX:

item['body'] = w3lib.html.remove_tags(w3lib.html.remove_tags_with_content(sel.xpath('//body').extract()[0].replace("\n", " ").replace("\r", ""),which_ones=('script',)))