将Unicode转换为等效的ASCII(SCRAPY)

时间:2019-05-03 10:20:57

标签: python mongodb scrapy

我正在使用Scrapy从新闻网站抓取文章并将其添加到mongoDB。但是在插入时,我在MongoDb中得到了Unicode字符

  

“文章”:“微软云和企业执行副总裁萨蒂亚·纳德拉(Satya Nadella)刚刚被任命为​​公司的下一任首席执行官。

我尝试过

item["article"]=response.xpath('//p/text()').getall()

item["article"] =' '.join(item['article'])

但是它仅在我运行搜寻器并将数据导出为JSON文件时有效,而在将数据存储在MongoDB中时则无效

在spider.py文件中,我编写了以下代码行以获取文章

TextParts

如何用等效的ASCII字符替换这些字符?

1 个答案:

答案 0 :(得分:1)

此解决方案对我有用(Character encoding in python to replace 'u2019' with '

import unidecode 

a=unidecode.unidecode( "Satya Nadella, Microsoft\u2019s executive vice president of cloud and enterprise, has just been named the company\u2019s next CEO.")