我有一个pdf文件,其内容格式如下:
00:12曾经有过一个男人......
00:18被认为有......
并且列表继续遵循相同的模式。现在我正在尝试编写一个正则表达式程序,它将读取文件并删除所有时间戳,并用空格替换行跳过。换一种说法。我想从中做出一个大段落。
这就是我提出的reg表达式:
transcript.replace(transcript.matches("^[0-9:]+$"),"")
这将消除任何数字和冒号,意味着时间戳。现在我不知道如何更换线路跳线,我会做类似
的事情transcript.replace(transcript.matches("^[\n]+$"), " ")
任何帮助将不胜感激。谢谢!
答案 0 :(得分:1)
难道你不能只检查空白行,跳过(或删除)这些行并使用transcript
代码来处理时间戳吗?
for line in file:
if line == "": #test that this is how a blank line is read
line.delete
else:
transcript.replace(transcript.matches("^[0-9:]+$"),"")
这可能会返回一个带有以下外观的文本块
曾经有过一个男人...
被认为有......
你还需要将其包含在连续的段落中。这三个点是否出现在每行的末尾,如引号中所示?