我需要遍历一个大文件的单词,该文件由一个长的长行组成。我知道逐行迭代文件的方法,但由于它的单行结构,它们在我的情况下不适用。
任何替代方案?
答案 0 :(得分:6)
这实际上取决于你对 word 的定义。但试试这个:
f = file("your-filename-here").read()
for word in f.split():
# do something with word
print word
这将使用空白字符作为单词边界。
当然,请记住正确打开和关闭文件,这只是一个简单的例子。
答案 1 :(得分:5)
长线?我认为这条线太大而不能合理地放在内存中,所以你需要某种缓冲。
首先,这是一种糟糕的格式;如果您对文件有任何控制权,请每行写一个单词。
如果没有,请使用以下内容:
line = ''
while True:
word, space, line = line.partition(' ')
if space:
# A word was found
yield word
else:
# A word was not found; read a chunk of data from file
next_chunk = input_file.read(1000)
if next_chunk:
# Add the chunk to our line
line = word + next_chunk
else:
# No more data; yield the last word and return
yield word.rstrip('\n')
return
答案 2 :(得分:3)
你真的应该考虑使用Generator
def word_gen(file):
for line in file:
for word in line.split():
yield word
with open('somefile') as f:
word_gen(f)
答案 3 :(得分:2)
有更有效的方法可以做到这一点,但从语法上讲,这可能是最短的:
words = open('myfile').read().split()
如果内存是一个问题,你不会想要这样做,因为它会将整个内容加载到内存中,而不是迭代它。
答案 4 :(得分:0)
正常读入该行,然后将其拆分为空格以将其分解为单词?
类似的东西:
word_list = loaded_string.split()
答案 5 :(得分:0)
阅读完毕后的行:
l = len(pattern)
i = 0
while True:
i = str.find(pattern, i)
if i == -1:
break
print str[i:i+l] # or do whatever
i += l
亚历。
答案 6 :(得分:0)
Donald Miner建议看起来很好。简单而简短。我在前面编写的代码中使用了以下代码:
l = []
f = open("filename.txt", "rU")
for line in f:
for word in line.split()
l.append(word)
唐纳德·米纳建议的更长版本。
答案 7 :(得分:0)
我已经回答了类似的问题before,但我已经改进了该答案中使用的方法,这里是更新版本(从最近的answer复制而来):
这是我完全功能性的方法,避免了必须阅读和 分裂线。它使用
itertools
模块:注意python 3,将
itertools.imap
替换为map
import itertools def readwords(mfile): byte_stream = itertools.groupby( itertools.takewhile(lambda c: bool(c), itertools.imap(mfile.read, itertools.repeat(1))), str.isspace) return ("".join(group) for pred, group in byte_stream if not pred)
样本用法:
>>> import sys >>> for w in readwords(sys.stdin): ... print (w) ... I really love this new method of reading words in python I really love this new method of reading words in python It's soo very Functional! It's soo very Functional! >>>
我想在你的情况下,这将是使用该功能的方式:
with open('words.txt', 'r') as f: for word in readwords(f): print(word)