为什么我找不到他们原始来源列表中的单词?

时间:2012-08-25 11:42:04

标签: python regex python-2.7

我试图在两个不同的文件中找到中文单词,但它没有用,所以我试图在同一个文件中搜索我从中得到它们的单词,但似乎它也找不到它?怎么可能?

chin_split = codecs.open("CHIN_split.txt","r+",encoding="utf-8")

使用this作为正则表达式代码。

import re
for n in re.findall(ur'[\u4e00-\u9fff]+',chin_split.read()):
    print n in re.findall(ur'[\u4e00-\u9fff]+',chin_split.read())    

我怎么只得到falses打印???

仅供参考我尝试这样做并且有效:

for x in [1,2,3,4,5,6,6]:
    print x in [1,2,3,4,5,6,6]

顺便说一句

chin_split包含英文希伯来文和中文

的文字

来自chin_split.txt的一些行:

 he daodan   核导弹     טיל גרעיני     
 hedantou    核弹头     ראש חץ גרעיני      
 helu    阖庐  "ביתו, מעונו 
 helu    阖庐   שם מלך וו בתקופת ה'אביב והסתיו'"      
 huiwu   会晤  להיפגש עם      

1 个答案:

答案 0 :(得分:3)

您正在多次读取文件描述符,这是错误的。

第一个chin_split.read()将产生所有内容,但其他内容(在循环内)将只获得一个空字符串。

该循环毫无意义,但如果您想保留它,请先将文件内容保存在变量中。