我需要使用python从模型中对输出文件进行后处理。输出文件包含数据和字符串的组合。首先,我想将字符串与数据分开,然后将每个输出时间的列0,1和2(只有数据,没有字符串)保存在单独的文本文件中。因此,对于下面的示例,我将有3个文本文件(对于Time = 0,Time = 0.01,Time = 0.04),每个文件包含来自每个输出时间的数据,而不包含任何标题或任何其他字符串。模型输出文件的缩写形式如下所示:
******* Program ******
******* Program ******
******* Program ******
Date: 26. 4. Time: 15:40:32
Units: L = cm , T = days , M = mmol
Time: 0.000000
Node Depth Head Moisture HeadF MoistureF Flux
[L] [L] [-] [L] [-] [L/T]
1 0.00 -1000.00 0.1088 -1000.00 0.002508 -0.562E-03
2 -0.04 -1000.00 0.1088 -1000.00 0.002508 -0.562E-03
3 -0.08 -1000.00 0.1088 -1000.00 0.002508 -0.562E-03
end
Time: 0.010000
Node Depth Head Moisture HeadF MoistureF Flux
[L] [L] [-] [L] [-] [L/T]
1 0.00 -666.06 0.1304 -14.95 0.139033 -0.451E-02
2 -0.04 -666.11 0.1304 -15.01 0.138715 -0.887E-02
3 -0.08 -666.35 0.1304 -15.06 0.138394 -0.174E-01
end
Time: 0.040000
Node Depth Head Moisture HeadF MoistureF Flux
[L] [L] [-] [L] [-] [L/T]
1 0.00 -324.87 0.1720 -12.30 0.157799 -0.315E-02
2 -0.04 -324.84 0.1720 -12.31 0.157724 -0.628E-02
3 -0.08 -324.83 0.1720 -12.32 0.157649 -0.125E-01
end
我从之前在stackoverflow中发布的另一个问题中找到了以下代码。以下是该问题的链接: enter link description here
这个问题与我的问题非常相似;但是,我修改它有助于解决我的问题。我该如何修改它以解决我的问题?或者我应该使用其他策略来解决这个问题?
def parse_DPT(lines):
DPT = []
while lines:
line = lines.pop(0).lstrip()
if line == ' ' or line.startswith('*'):
continue
if line.startswith('*'):
lines.insert(0, line)
break
data = line.split(' ')
# pick only columns 0, 1, 2 and
# convert to appropiate numeric format
# and append to list for current DPT and step
DPT.append([int(data[0]), float(data[1]), float(data[2])])
return DPT
raw = []
with open('NOD_INFTEST.txt') as nit:
lines = nit.readlines()
while lines:
line = lines.pop(0)
if line.startswith(''):
if line.find('Time:') > -1:
raw.append(parse_DPT(lines))
from pprint import pprint
for raw_step in zip(raw):
print 'raw:'
pprint(raw_step)
以下是我从python中收到的错误消息:
'import sitecustomize' failed; use -v for traceback
Traceback (most recent call last):
File "C:\Users\Desktop\python test\p-test3.py", line 58, in <module>
raw.append(parse_DPT(lines))
File "C:\Users\Desktop\python test\p-test3.py", line 35, in parse_DPT
DPT.append([int(data[0]), float(data[1]), float(data[2])])
ValueError: invalid literal for int() with base 10: 'Units:'
答案 0 :(得分:1)
如果我理解了你的问题,那么这段代码应该可以解决问题:
import re
with open('in.txt', 'r') as in_file:
file_content = in_file.read()
blocks = re.findall(
'Time:\s*\d+\.\d*(.*?)end',
file_content,
re.DOTALL
)
file_number = 1
for block in blocks:
with open('out%s.txt'%str(file_number), 'w') as out_file:
for row in re.findall(
'\s*(-?\d+.?\d*)\s*(-?\d+.?\d*)\s*(-?\d+.?\d*).*',
block):
out_file.write(row[0] + ' ' + row[1] + ' ' + row[2] + '\n')
file_number += 1
代码假定包含文本的文件名为in.txt