Question

用下面的python代码抓取后，我的结果包含了一些额外的＆＃39; \ n和更多种类的\ xc2 \ xa0it，如何摆脱这个？（我尝试使用strip，仍然没有工作）

    age_stored=BeautifulSoup(req_final_page.text,'html5lib')
    detail_content=page_stored.find('div', { 'class' : 'company-page-body body'})
    details=[]
    for content in detail_content:
        details.append(content.string)

结果是：

对于伟大的艺术家，设计师，作家和企业家来说，你有什么不同之处？＆＃39; \ n＆＃39;，＆＃39;什么\ xe2 \ x80 \ x99s？他们可以做什么，没有人可以做到？他们看到其他人不喜欢的东西\ xe2 \ x80 \ x99t。还没有存在的东西。更好的做事方式。其他人错过的模式和联系。 Milanote也帮助任何人实现这一愿景，他们相信你也能够以不同的方式看待事物。＆＃39;，你＆＃39; \ n＆＃39;，你＆＃39; Milanote是基于每一项伟大工作背后的想法都是大量的研究，思考和规划，这些研究，思考和规划往往是混乱的，非结构化的，需要时间来发展。这就是为什么Milanote比同类产品更具视觉，灵活和触觉的原因。他们真的试图重现在创意工作室墙上工作的感觉。＆＃39;，你＆＃39; \ n＆＃39;

Answer 1

这是因为unicode。您可以看到此question 。

在追加到列表之前，摆脱u将其转换为string。

details = []
for content in detail_content:
    details.append(str(content.string))

删除＆＃34;你＆＃39; \ n＆＃39;＆＃34;从废料结果

1 个答案: