我在Windows 10和ubuntu 14.04 LTS上都使用python 3.5.1。 我有一个包含超过一百万个字符串项的列表。项目是土耳其语单词的unicode字符串。 我使用in运算符检查该列表中是否存在某些字符串。大多数答案都是正确的。 但是有些字符串返回False,即使它们存在于列表中。 将列表转换为集合后,我尝试了相同的cehecks。 但没有改变。 我该怎么做才能获得正确的结果。 感谢。
我到处都在使用utf-8编码。
答案 0 :(得分:0)
问题解决了。但是,这不是列表问题。 为了准备列表,我正在逐行读取相关文件,将其剥离并附加到列表中。在那个过程中,一些物品丢失了。我还不知道原因。 但是以下几行创建了完整的列表而没有任何损失:
以open(“./ veri / dertop.txt”,encoding =“utf-8”)作为fin: dertop = fin.read()。splitlines()