我正在使用文本语料库,其中有三个句子。我想在开头使用标签<s>
插入html,并使用正则表达式在每个句子的末尾插入</s>
。下面给出了部分代码:
text = '''
I live in SOME_PLACE.
I am a graduate student.
My school is in SOME_PLACE.
'''
我想要的是一个格式为,
的python字符串text_new = '<s> I live in SOME_PLACE. </s> <s> I am a graduate student. </s> <s> My school is in SOME_PLACE. </s>'
即。我希望提到句子边界。请提出一些有价值的建议。
答案 0 :(得分:1)
以下内容应该有效:
text = '''
I live in SOME_PLACE.
I am a graduate student.
My school is in SOME_PLACE.
'''
text_new = ' '.join('<s> {} </s>'.format(l.strip()) for l in text.splitlines() if len(l.strip()))
print text_new
或者作为正则表达式:
import re
print re.sub(r'^\s+(.*)\n', r'<s> \1 </s> ', text, flags=re.M)
显示以下内容:
<s> I live in SOME_PLACE. </s> <s> I am a graduate student. </s> <s> My school is in SOME_PLACE. </s>