如何优化英语单词表

时间:2010-06-30 23:49:54

标签: regex linux string text sed

我希望使用sed或类似的linux应用程序优化英语单词列表..为了做到这一点,我需要:

删除包含除a-z,0-9或特殊字符

之外的任何内容的行

删除网址 - 可能检测到“\”字符

删除长度超过16个字符,4个字符或更短的行。 (5-16个字符)

最好在sed =)

谢谢!

3 个答案:

答案 0 :(得分:0)

perl -ne "print if /^[a-zA-Z0-9{other allowed characters here}]{4,16}$/"

答案 1 :(得分:0)

基于Anon。:

egrep '^[a-zA-Z0-9{other allowed characters here}]{4,16}$'

答案 2 :(得分:0)

sed -nr '/^[[:alnum:]]{5,16}$/p' words
  • -n表示默认情况下不打印行
  • -r表示使用'扩展'正则表达式

sed命令是:

  • /.../当我们有匹配的东西时
    • ^...$整行只包含
      • [...]字符类:
        • [:alnum:]字母数字字符
      • {5,16}介于5到16次之间
  • p然后我们将其打印