Question

我有一个pdf文件，其内容格式如下：

00:12曾经有过一个男人......

00:18被认为有......

并且列表继续遵循相同的模式。现在我正在尝试编写一个正则表达式程序，它将读取文件并删除所有时间戳，并用空格替换行跳过。换一种说法。我想从中做出一个大段落。

这就是我提出的reg表达式：

transcript.replace(transcript.matches("^[0-9:]+$"),"")

这将消除任何数字和冒号，意味着时间戳。现在我不知道如何更换线路跳线，我会做类似

的事情

transcript.replace(transcript.matches("^[\n]+$"), " ")

任何帮助将不胜感激。谢谢！

Answer 1

难道你不能只检查空白行，跳过（或删除）这些行并使用transcript代码来处理时间戳吗？

for line in file:
    if line == "": #test that this is how a blank line is read
       line.delete
    else:
       transcript.replace(transcript.matches("^[0-9:]+$"),"")

这可能会返回一个带有以下外观的文本块

曾经有过一个男人...

被认为有......

你还需要将其包含在连续的段落中。这三个点是否出现在每行的末尾，如引号中所示？

Python正则表达式匹配和替换

1 个答案: