我正在处理一个相当大的文件,我将用它来创建word2vec嵌入。该文件在每行包含一个句子,所有行以开始标记和结束标记开头。现在我想做的是使用sed删除开始和结束标签,但我无法弄清楚如何做到这一点。
我试过了
sed myfile 's/<s> //g' > resultfile
sed resultfile 's/ </s>//g' > finalfile
但是这会产生&#34;命令后的额外字符&#34;错误。
如果有人能给我正确的模式,我会非常开心。提前谢谢!
答案 0 :(得分:4)
试试这个:
sed 's#</\?s>##g' file
<s>
和</s>
#
是sed的s
命令的分隔符,因为您的模式已经是斜杠。</\?s>
是正则表达式,匹配<s> and </s>
答案 1 :(得分:1)