两个非ASCII字符串集的交集

时间:2016-08-02 18:01:40

标签: python python-2.7 utf-8 intersection

我有两个文本文件在herehere上传。每行都是一个短语及其在两个文件中的计数。我想找到他们的十字路口。我在python 2.7中编写了如下代码:

import sys
reload(sys)
sys.setdefaultencoding('UTF8')
osool=[]
osoolCount=[]
eslah=[]
eslahCount=[]
for line in open("osool.txt"):
    osool.append(str(line.split(',')[0]).decode('utf-8'))
    osoolCount.append(int(line.split(',')[1]))
for line in open("eslah.txt"):
    eslah.append(str(line.split(',')[0]).decode('utf-8'))
    eslahCount.append(int(line.split(',')[1]))
intersection=list(set(eslah) & (set(osool)))
for i in intersection:
    print i

问题是intersection不包括所有类似的短语。例如,ادب_مرد_به_ز_دولت_اوست在两个文本文件中,但是当我打印交叉点时,它不在那里!

有什么问题?

0 个答案:

没有答案