匹配此表单中的文件。它始终以InvNo开头,〜EOR~是记录结束。
InvNo: 123
Tag1: rat cake
Media: d234
Tag2: rat pudding
~EOR~
InvNo: 5433
Tag1: strawberry tart
Tag5: 's got some rat in it
~EOR~
InvNo: 345
Tag2: 5
Media: d234
Tag5: rather a lot really
~EOR~
它应该成为
IN 123
UR blabla
**
IN 345
UR blibli
**
其中UR是一个URL。我想将InvNo作为第一个标签。 **现在是记录标记的结束。这有效:
impfile = filename[:4]
media = open(filename + '_earmark.dat', 'w')
with open(impfile, 'r') as f:
HASMEDIA = False
recordbuf = ''
for line in f:
if 'InvNo: ' in line:
InvNo = line[line.find('InvNo: ')+7:len(line)]
recordbuf = 'IN {}'.format(InvNo)
if 'Media: ' in line:
HASMEDIA = True
mediaref = line[7:len(line)-1]
URL = getURL(mediaref) # there's more to it, but that's not important now
recordbuf += 'UR {}\n'.format(URL))
if '~EOR~' in line:
if HASMEDIA:
recordbuf += '**\n'
media.write(recordbuf)
HASMEDIA = False
recordbuf = ''
media.close()
有更好的,更多的Pythonic方式吗?使用recordbuffer和HASMEDIA标志似乎是老帽子。有关良好或更好实践的任何示例或提示?
(另外,我愿意接受关于这篇文章的更多标题的建议)
答案 0 :(得分:3)
您最初可以将InvNo
和URL
设置为None
,并且仅在InvNo
和URL
都不是Falsish时打印记录:
impfile = filename[:4]
with open(filename + '_earmark.dat', 'w') as media, open(impfile, 'r') as f:
InvNo = URL = None
for line in f:
if line.startswith('InvNo: '):
InvNo = line[line.find('InvNo: ')+7:len(line)]
if line.startswith('Media: '):
mediaref = line[7:len(line)-1]
URL = getURL(mediaref)
if line.startswith('~EOR~'):
if InvNo and URL:
recordbuf = 'IN {}\nUR {}\n**\n'.format(InvNo, URL)
media.write(recordbuf)
InvNo = URL = None
注意:我根据假设将'InvNo: ' in line
更改为line.startswith('InvNo: ')
,InvNo
始终出现在行的开头。在您的示例中似乎是正确的,但您使用line.find('InvNo: ')
的事实表明'InvNo:'
可能出现在该行的任何位置。
如果InvNo:
仅出现在该行的开头,则使用line.startswith(...)
并删除line.find('InvNo: ')
(因为它等于0)。
否则,您必须保留'InvNo:' in line
和line.find
(当然,Media
和~EOR~
也是如此。
使用'Media' in line
之类的代码的问题在于,如果Tags
可以包含任何内容,则它可能包含字符串'Media'
,而不是真正的字段标题。
答案 1 :(得分:0)
这是一个版本,如果你不想切片,如果你需要再次写入同一个输出文件,你可能不会,你可以将'w'改为'a'。
with open('input_file', 'r') as f, open('output.dat', 'a') as media:
write_to_file = False
lines = f.readlines()
for line in lines:
if line.startswith('InvNo:'):
first_line = 'IN ' + line.split()[1] + '\n'
if line.startswith('Media:'):
write_to_file = True
if line.startswith('~EOR~') and write_to_file:
url = 'blabla' #Put getUrl() here
media.write(first_line + url + '\n' + '**\n')
write_to_file = False
first_line = ''