用解码的阿拉伯字符编写新的jsonL文件

时间:2017-10-28 10:57:19

标签: python utf-8 arabic

我正在播放存储为“.jsonl”文件的阿拉伯语推文。在Xcode,Brackets或textEdit中打开文件时,阿拉伯字符显示为“\ u0645 \ u0635 \ u0635 \ u0606 \ u0606 \ u0606 \ u0662 \ u0662 \ u0608 \ u0628 \ u0628 \ u0627 \ u0628 \ u0644 \ u0644”。但是为了分析内容,我需要正确阅读文件,显示实际的阿拉伯语文本。我已经设法在Python(3)控制台中打印它们,但我仍然需要它们在一个单独的文件中。我觉得这是一个非常简单的事情,但是当使用io.open等时,我总是会遇到问题。欣赏任何想法!

这是我在python控制台中打印它们的代码:

import json
outFile = open('user_timeline_almanarnews.jsonl', 'r').read()
splitFile = outFile.split('\n')

for eachLine in splitFile:
    x = eachLine.encode('utf-8')
    print(x.decode('unicode-escape'))

0 个答案:

没有答案