Python正则表达式匹配和替换

时间:2016-11-22 10:14:05

标签: python regex

我有一个pdf文件,其内容格式如下:

  

00:12曾经有过一个男人......

     

00:18被认为有......

并且列表继续遵循相同的模式。现在我正在尝试编写一个正则表达式程序,它将读取文件并删除所有时间戳,并用空格替换行跳过。换一种说法。我想从中做出一个大段落。

这就是我提出的reg表达式:

transcript.replace(transcript.matches("^[0-9:]+$"),"")

这将消除任何数字和冒号,意味着时间戳。现在我不知道如何更换线路跳线,我会做类似

的事情
transcript.replace(transcript.matches("^[\n]+$"), " ")

任何帮助将不胜感激。谢谢!

1 个答案:

答案 0 :(得分:1)

难道你不能只检查空白行,跳过(或删除)这些行并使用transcript代码来处理时间戳吗?

for line in file:
    if line == "": #test that this is how a blank line is read
       line.delete
    else:
       transcript.replace(transcript.matches("^[0-9:]+$"),"")

这可能会返回一个带有以下外观的文本块

  

曾经有过一个男人...

     

被认为有......

你还需要将其包含在连续的段落中。这三个点是否出现在每行的末尾,如引号中所示?