如何从包含X个字符的文本文件中删除单词?

时间:2016-12-23 17:04:28

标签: awk sed textedit

我在这里找到了很少的帖子,建议使用awksed的解决方案,但他们似乎都没有做到这一点。要么删除整行,要么删除任何内容。我也不是命令行wizzard,我的知识有点受限,所以我决定在这里寻求帮助。这个解决方案无关紧要,无论是awkgrepsed ......我真的无法在这种情况下做出任何改变,所以无论你感觉如何#39;在这种情况下被困扰。

我所拥有的是具有几百万行的几个文件,文件/行看起来像这样:

50somethingcharactergibberish shortrword
50somethingcharactergibberish shortrword
50somethingcharactergibberish shortrword
50somethingcharactergibberish shortrword
50somethingcharactergibberish shortrword
50somethingcharactergibberish shortrword

这有几百万行。我需要做的是删除50somethingcharactergibberish并只留下短名词。问题还在于没有模式,有问​​题的长词有时以字母开头,有时以数字开头。所以我假设我不得不最终计算这些角色。

2 个答案:

答案 0 :(得分:0)

可能适合您的最小awk类似于: -

awk '!($1="")' million-line-file

答案 1 :(得分:0)

awk对于此次尝试FactoryGirl.define do factory :user do after(:build) { |u| u.skip_confirmation_notification! } after(:create) { |u| u.confirm } ... end end

来说太过分了
cut

cut -f2 -d ' ' 2col.list > 2ndcol.list 第二个字段cut,为输入文件中的每一行考虑一个空格作为字段分隔符-f2,并将第二个字段重定向到输出文件