在HTML文件中查找字符串并使用Python返回相邻值

时间:2017-02-14 23:35:22

标签: python html file

我有一个HTML文件,其中包含一堆字段,其中会出现一个特定字符串,后跟括号内的值。例如:RECORD_DURATION(0:00:15)。字符串RECORD_DURATION将在整个HTML文件中多次出现。我想写一个脚本,它将搜索RECORD_DURATION字符串并返回字符串旁边的括号内的值。所以我期待我的输出看起来像这样:

  
    

0时00分15秒

  

或者,如果有多个持续时间(几乎总是如此),则返回包含这些值的列表

  
    

[0:00:15,0:00:08,0:00:11]

  

我到目前为止的代码只是尝试读取整个文件并返回一个包含字符串的行:

with open("filename.html", 'r') as searchfile:
     for line in searchfile:
          if 'RECORD_DURATION' in line:
               print line

但是,整个文件都在一行中,所以它最终会返回所有内容。有没有办法在Python中巧妙地做到这一点?

1 个答案:

答案 0 :(得分:0)

可能最简单的是:before, after = line.split('RECORD_DURATION',1)

这很快就会变得笨拙,所以要么使用“re”模块,要么更好地看看“beautifulsoup”模块。