我有两个文本文件在here和here上传。每行都是一个短语及其在两个文件中的计数。我想找到他们的十字路口。我在python 2.7
中编写了如下代码:
import sys
reload(sys)
sys.setdefaultencoding('UTF8')
osool=[]
osoolCount=[]
eslah=[]
eslahCount=[]
for line in open("osool.txt"):
osool.append(str(line.split(',')[0]).decode('utf-8'))
osoolCount.append(int(line.split(',')[1]))
for line in open("eslah.txt"):
eslah.append(str(line.split(',')[0]).decode('utf-8'))
eslahCount.append(int(line.split(',')[1]))
intersection=list(set(eslah) & (set(osool)))
for i in intersection:
print i
问题是intersection
不包括所有类似的短语。例如,ادب_مرد_به_ز_دولت_اوست
在两个文本文件中,但是当我打印交叉点时,它不在那里!
有什么问题?