从文件中的所有行中删除<s>和</s>

时间:2017-01-04 14:50:29

标签: regex sed

我正在处理一个相当大的文件,我将用它来创建word2vec嵌入。该文件在每行包含一个句子,所有行以开始标记和结束标记开头。现在我想做的是使用sed删除开始和结束标签,但我无法弄清楚如何做到这一点。

我试过了

sed myfile 's/<s> //g' > resultfile
sed resultfile 's/ </s>//g' > finalfile

但是这会产生&#34;命令后的额外字符&#34;错误。

如果有人能给我正确的模式,我会非常开心。提前谢谢!

2 个答案:

答案 0 :(得分:4)

试试这个:

sed 's#</\?s>##g' file
  • 这将一次删除<s></s>
  • #是sed的s命令的分隔符,因为您的模式已经是斜杠。
  • </\?s>是正则表达式,匹配<s> and </s>

答案 1 :(得分:1)

你的论点顺序错误。

尝试使用:

sed -e 's/<[^>]*>//g' myfile.txt

删除任何 html标记

参考:Sed remove tags from html file