我被要求阅读包含以下内容的文本文件:
1.
Wicked Stepmother (1989) as Miranda
A couple comes home from vacation to find that their grandfather has …
2.
Directed By William Wyler (1988) as Herself
During the Golden Age of Hollywood, William Wyler was one of the …
3.
Whales of August, The (1987) as Libby Strong
Drama revolving around five unusual elderly characters, two of whom …
4.
As Summers Die (1986) as Hannah Loftin
Set in a sleepy Southern Louisiana town in 1959, a lawyer, searches …
并创建一个如下所示的.csv输出文件:
1,Wicked Stepmother ,1989, as Miranda,A couple comes home from vacation …
2,Directed By William Wyler ,1988, as Herself,During the Golden Age of …
3,"Whales of August, The ",1987, as Libby Strong,Drama revolving around five…
我知道如果我可以将线分开,那么我可以在它们之间用逗号再次将它们重新组合在一起然后将这些字符串写入我的输出文件中。我的问题是格式。对于我只想要的数字:
line1=stringname[0]+','
line2= stringname[:stringname.find('(')-1]+','+stringname[stringname.find('(')+1:stringname.find(')')-1]+','+stringname[stringname.find(')')+1:]
没有更改到line3然后写入文件
result=line1+line2+line3
问题是我不知道我在任何给定时间解析哪一行。我想在for循环中可能有些东西确保我一次解析3行的代码,但我不知道如何同时管理文件处理。我也不确定如何防止循环越过程序结束。
答案 0 :(得分:1)
这可以使用正则表达式轻松完成,但我猜你不想使用它。
相反,可以通过一次读取一行中的文件并确定该行是否以数字后跟.
开头来解决问题。如果是,请开始构建一个行列表,直到找到下一个数字。
使用Python的int()
函数将尝试将字符串转换为数字。 find('.')
函数尝试查找数字的结尾。
如果返回的字符串不是数字,则会引发ValueError
异常。在这种情况下,请将行添加到行列表中。
如果有号码,首先将任何现有条目写入csv
文件,然后开始新条目。
最后,没有最后一个数字行来触发下一次写入,所以添加另一个调用将最后一行写入csv。
例如:
import csv
with open('text.txt') as f_input, open('output.csv', 'wb') as f_output:
csv_output = csv.writer(f_output)
entry = []
for line in f_input:
line = line.strip() # Remove the trailing newline
if len(line): # Does the line containing anything?
try:
number = int(line[:line.find('.')])
if len(entry):
csv_output.writerow(entry)
entry = [number]
except ValueError:
entry.append(line)
csv_output.writerow(entry)
Python的csv
库用于获取列表,并在写入csv输出文件时自动在条目之间添加必要的逗号。如果条目包含逗号,它将自动添加引号。