使用bash计算文件中每个单词的出现次数

时间:2012-09-03 03:03:15

标签: arrays bash

我想计算文件中每个单词的出现次数 但结果是错误的。

#!/bin/bash
#usage: count.sh file

declare -a dict

for word in $(cat $1)
do
    if [ ${dict[$word]} == "" ] ;then
        dict[$word]=0
    else
        dict[$word]=$[${dict[$word]} + 1]
    fi
done

for word in ${!dict[@]}
do
    echo $word: ${dict[$word]}
done

使用下面的测试文件:

learning the bash shell
this is second line
this is the last line

bash -x count.sh文件 得到结果:

+ declare -a dict
++ cat book
+ for word in '$(cat $1)'
+ '[' '' == '' ']'
+ dict[$word]=0
+ for word in '$(cat $1)'
+ '[' 0 == '' ']'
+ dict[$word]=1
+ for word in '$(cat $1)'
+ '[' 1 == '' ']'
+ dict[$word]=2
+ for word in '$(cat $1)'
+ '[' 2 == '' ']'
+ dict[$word]=3
+ for word in '$(cat $1)'
+ '[' 3 == '' ']'
+ dict[$word]=4
+ for word in '$(cat $1)'
+ '[' 4 == '' ']'
+ dict[$word]=5
+ for word in '$(cat $1)'
+ '[' 5 == '' ']'
+ dict[$word]=6
+ for word in '$(cat $1)'
+ '[' 6 == '' ']'
+ dict[$word]=7
+ for word in '$(cat $1)'
+ '[' 7 == '' ']'
+ dict[$word]=8
+ for word in '$(cat $1)'
+ '[' 8 == '' ']'
+ dict[$word]=9
+ for word in '$(cat $1)'
+ '[' 9 == '' ']'
+ dict[$word]=10
+ for word in '$(cat $1)'
+ '[' 10 == '' ']'
+ dict[$word]=11
+ for word in '$(cat $1)'
+ '[' 11 == '' ']'
+ dict[$word]=12
+ for word in '${!dict[@]}'
+ echo 0: 12 0: 12

1 个答案:

答案 0 :(得分:2)

使用declare -a dict意味着每个键都被计算为一个数值,然后将其用作索引。如果你用文字存储东西,那不是你想要的。请改用declare -A


此外,$[ ]是一种非常过时的数学语法。即使是现代POSIX sh也支持$(( )),你应该使用它来代替:

dict[$word]=$(( ${dict[$word]} + 1 ))

或者,为了利用仅bash的数学语法:

(( dict[$word]++ ))

此外,使用for word in $(cat $1)在几个方面被打破:

  • 它不引用$1,因此对于带空格的文件名,它会将名称拆分为多个单词并尝试将每个单词作为单独的文件打开。要解决此问题,您可以使用$(cat "$1")$(<"$1")(效率更高,因为它不需要启动外部程序cat)。
  • 它尝试将文件中的单词扩展为globs - 如果文件包含*,则当前目录中的每个文件都将被视为单词。

相反,请使用while循环:

while read -r -d' ' word; do
  if [[ -n ${dict[$word]} ]] ; then
    dict[$word]=$(( ${dict[$word]} + 1 ))
  else
    dict[$word]=1
  fi
done <"$1"