python 2.7.6
示例文档
<div id="memo_img">
<table style="table-layout: fixed; width: 100%">
<tbody>
<tr>
<td>This is just simple sentence
</td>
</tr>
</tbody>
</table>
</div>
这个html有很多空格。
我想要捕获“这只是简单的句子”
我的正则表达式
<table style="table-layout: fixed; width: 100%"><tbody><tr><td>(.*)</td>
不能正常工作。
如何忽略空白和标签?
请帮帮我
答案 0 :(得分:-1)
你也可以用正则表达式来处理它,我让字符串变得更乱,所以你可以看到它在硬模式下是如何工作的:
import re
a = '''
<table style="table-layout: fixed; width: 100%"><tbody><tr><td>
This is just simple sentence
word
other word
number
22 14 </td></tr></tbody></table>
</div>
'''
m = re.search('<td>((.|\n)*?)<\/td>', a)
str = m.group(1)
print ' '.join(str.split())
结果将是:这只是简单的句子单词其他单词编号22 14