我正在使用Scrapy从新闻网站抓取文章并将其添加到mongoDB。但是在插入时,我在MongoDb中得到了Unicode字符
“文章”:“微软云和企业执行副总裁萨蒂亚·纳德拉(Satya Nadella)刚刚被任命为公司的下一任首席执行官。
我尝试过
item["article"]=response.xpath('//p/text()').getall()
item["article"] =' '.join(item['article'])
但是它仅在我运行搜寻器并将数据导出为JSON文件时有效,而在将数据存储在MongoDB中时则无效
在spider.py文件中,我编写了以下代码行以获取文章
TextParts
如何用等效的ASCII字符替换这些字符?
答案 0 :(得分:1)
此解决方案对我有用(Character encoding in python to replace 'u2019' with ')
import unidecode
a=unidecode.unidecode( "Satya Nadella, Microsoft\u2019s executive vice president of cloud and enterprise, has just been named the company\u2019s next CEO.")