好人/加尔斯再次坚持简单的事情 我有一个文本文件,每个条目有多行,数据采用以下格式
第一个单词单词
wordx单词单词有趣1 单词单词单词
罗嗦的单词单词
wordz word word word interesting2 word word word lastword
这个序列重复了一百次左右,所有其他单词除了interesting1和interesting2之外都是相同的,没有空白行。有趣的2与有趣的1相关,但与其他任何内容无关,我想将两个有趣的项目链接在一起,丢弃其余的如
有趣1 =有趣2 有趣的是1 =有趣的2 有趣的是1 =有趣的2 等,每个序列1个
每行以不同的词开头
我的尝试是读取文件并执行“if wordx in line”语句以识别第一个有趣的行,切出值,找到第二行,(“如果wordz in line”切出值并将第二行连接起来第一个。
虽然它很笨拙,我不得不使用全局变量,临时变量等,我确信必须有一种方法来识别firstword和lastword之间的范围并将其放入单个列表中,然后将两个值一起切片。
任何建议都表示感谢,感谢您的时间
答案 0 :(得分:6)
from itertools import izip, tee, islice
i1, i2 = tee(open("foo.txt"))
for line2, line4 in izip(islice(i1,1, None, 4), islice(i2, 3, None, 4)) :
print line2.split(" ")[4], "=", line4.split(" ")[4]
答案 1 :(得分:0)
在这种情况下,创建一个与重复文本匹配的正则表达式,并为有趣位提供组。然后你应该能够使用findall来查找所有有趣的1和有趣的案例。
像这样: 导入重新
text = open("foo.txt").read()
RE = re.compile('firstword.*?wordx word word word (.*?) word.*?wordz word word word (.*?) word', re.DOTALL)
print RE.findall(text)
虽然如评论中所述,islice绝对是一个更简洁的解决方案。
答案 2 :(得分:0)
我已经抛出一大堆断言来检查数据布局的规律性。
C:\SO>type words.py
# sample pseudo-file contents
guff = """\
firstword word word word
wordx word word word interesting1-1 word word word word
wordy word word word
wordz word word word interesting2-1 word word word lastword
miscellaneous rubbish
firstword word word word
wordx word word word interesting1-2 word word word word
wordy word word word
wordz word word word interesting2-2 word word word lastword
firstword word word word
wordx word word word interesting1-3 word word word word
wordy word word word
wordz word word word interesting2-3 word word word lastword
"""
# change the RHS of each of these to reflect reality
FIRSTWORD = 'firstword'
WORDX = 'wordx'
WORDY = 'wordy'
WORDZ = 'wordz'
LASTWORD = 'lastword'
from StringIO import StringIO
f = StringIO(guff)
while True:
a = f.readline()
if not a: break # end of file
a = a.split()
if not a: continue # empty line
if a[0] != FIRSTWORD: continue # skip extraneous matter
assert len(a) == 4
b = f.readline().split(); assert len(b) == 9
c = f.readline().split(); assert len(c) == 4
d = f.readline().split(); assert len(d) == 9
assert a[0] == FIRSTWORD
assert b[0] == WORDX
assert c[0] == WORDY
assert d[0] == WORDZ
assert d[-1] == LASTWORD
print b[4], d[4]
C:\SO>\python26\python words.py
interesting1-1 interesting2-1
interesting1-2 interesting2-2
interesting1-3 interesting2-3
C:\SO>