(python regex)如何在标签之间捕获字符串

时间:2016-06-10 09:02:33

标签: python html regex tags

python 2.7.6

示例文档

   <div id="memo_img">
      <table style="table-layout: fixed; width: 100%">
         <tbody>
            <tr>
              <td>This is just simple sentence
              </td>
           </tr>
         </tbody>
      </table>
   </div>

这个html有很多空格。

我想要捕获“这只是简单的句子

我的正则表达式

<table style="table-layout: fixed; width: 100%"><tbody><tr><td>(.*)</td>

不能正常工作。

如何忽略空白和标签?

请帮帮我

1 个答案:

答案 0 :(得分:-1)

你也可以用正则表达式来处理它,我让字符串变得更乱,所以你可以看到它在硬模式下是如何工作的:

import re
a = '''
    <table style="table-layout: fixed; width: 100%"><tbody><tr><td>

                                    This is just simple sentence
word
                other          word
 number
                         22    14        </td></tr></tbody></table>
                                    </div>
'''
m = re.search('<td>((.|\n)*?)<\/td>', a)
str = m.group(1)
print ' '.join(str.split())

结果将是:这只是简单的句子单词其他单词编号22 14