如何在python中使用正则表达式为字符串插入html,如标记“<s> </s>”?

时间:2016-02-12 17:47:28

标签: python regex

我正在使用文本语料库,其中有三个句子。我想在开头使用标签<s>插入html,并使用正则表达式在每个句子的末尾插入</s>。下面给出了部分代码:

text = '''
       I live in SOME_PLACE.
       I am a graduate student.
       My school is in SOME_PLACE.
       '''

我想要的是一个格式为,

的python字符串
text_new = '<s> I live in SOME_PLACE. </s> <s> I am a graduate student. </s> <s> My school is in SOME_PLACE. </s>'

即。我希望提到句子边界。请提出一些有价值的建议。

1 个答案:

答案 0 :(得分:1)

以下内容应该有效:

text = '''
       I live in SOME_PLACE.
       I am a graduate student.
       My school is in SOME_PLACE.
       '''

text_new = ' '.join('<s> {} </s>'.format(l.strip()) for l in text.splitlines() if len(l.strip()))
print text_new

或者作为正则表达式:

import re
print re.sub(r'^\s+(.*)\n', r'<s> \1 </s> ', text, flags=re.M)

显示以下内容:

<s> I live in SOME_PLACE. </s> <s> I am a graduate student. </s> <s> My school is in SOME_PLACE. </s>