删除"你' \ n'"从废料结果

时间:2017-05-21 08:16:49

标签: python web-scraping beautifulsoup strip

用下面的python代码抓取后,我的结果包含了一些额外的' \ n和更多种类的\ xc2 \ xa0it,如何摆脱这个?(我尝试使用strip,仍然没有工作)

    age_stored=BeautifulSoup(req_final_page.text,'html5lib')
    detail_content=page_stored.find('div', { 'class' : 'company-page-body body'})
    details=[]
    for content in detail_content:
        details.append(content.string)

结果是:

对于伟大的艺术家,设计师,作家和企业家来说,你有什么不同之处?' \ n','什么\ xe2 \ x80 \ x99s?他们可以做什么,没有人可以做到?他们看到其他人不喜欢的东西\ xe2 \ x80 \ x99t。还没有存在的东西。更好的做事方式。其他人错过的模式和联系。 Milanote也帮助任何人实现这一愿景,他们相信你也能够以不同的方式看待事物。',你' \ n',你' Milanote是基于每一项伟大工作背后的想法都是大量的研究,思考和规划,这些研究,思考和规划往往是混乱的,非结构化的,需要时间来发展。这就是为什么Milanote比同类产品更具视觉,灵活和触觉的原因。他们真的试图重现在创意工作室墙上工作的感觉。',你' \ n'

1 个答案:

答案 0 :(得分:1)

这是因为unicode。您可以看到此question

在追加到列表之前,摆脱u将其转换为string

details = []
for content in detail_content:
    details.append(str(content.string))