Question

我试图在两个不同的文件中找到中文单词，但它没有用，所以我试图在同一个文件中搜索我从中得到它们的单词，但似乎它也找不到它？怎么可能？

chin_split = codecs.open("CHIN_split.txt","r+",encoding="utf-8")

使用this作为正则表达式代码。

import re
for n in re.findall(ur'[\u4e00-\u9fff]+',chin_split.read()):
    print n in re.findall(ur'[\u4e00-\u9fff]+',chin_split.read())

我怎么只得到falses打印???

仅供参考我尝试这样做并且有效：

for x in [1,2,3,4,5,6,6]:
    print x in [1,2,3,4,5,6,6]

顺便说一句

chin_split包含英文希伯来文和中文

的文字

来自chin_split.txt的一些行：

 he daodan   核导弹     טיל גרעיני     
 hedantou    核弹头     ראש חץ גרעיני      
 helu    阖庐  "ביתו, מעונו 
 helu    阖庐   שם מלך וו בתקופת ה'אביב והסתיו'"      
 huiwu   会晤  להיפגש עם

Answer 1

您正在多次读取文件描述符，这是错误的。

第一个chin_split.read()将产生所有内容，但其他内容（在循环内）将只获得一个空字符串。

该循环毫无意义，但如果您想保留它，请先将文件内容保存在变量中。

为什么我找不到他们原始来源列表中的单词？

1 个答案: