我正在尝试从Youtube视频中获取转录文本并将其解析为文档以进行编辑。 我已经能够删除放在其中的大部分HTML标记。但是,我想删除下面的代码,即已经解析为单个字符串的时间戳和偏移量。
我试过这个,但我不擅长正则表达式:
/^\d{2}\:\d{8}\"\>$/gm
在Regex101测试仪(https://regex101.com/r/a9wi2j/3/)中,它可以正常工作,但在EditPad替换中,它没有。
EditPad中的正则表达式会删除所有以">
下方结尾的行吗?
03:17197850">
that so if you have production staff you
03:21201780">
can create logins like that for them and
03:24204299">
then they have access to all the
03:25205739">
information and everything they need but
03:27207359">
they can't go in and adjust pricing on
03:30210060">
答案 0 :(得分:0)
您需要在>
之前删除反斜杠,因为早期版本的EditPad \>
已被解释为单词边界,而且最新版本不支持此标记。
您需要像在提供的演示中一样启用m
标志:
(?m)^\d{2}\:\d{8}\">$