我有问题。我需要编写一个bash脚本,它将在给定的路径中找到所有文件和目录,并显示一些有关结果的信息。允许时间:30秒。
#!/bin/bash
DIRS=0
FILES=0
OLD_FILES=0
LARGE_FILES=0
TMP_FILES=0
EXE_FILES=0
IMG_FILES=0
SYM_LINKS=0
TOTAL_BYTES=0
#YEAR_AGO=$(date -d "now - 1 year" +%s)
#SECONDS_IN_YEAR=31536000
function check_dir {
for entry in "$1"/*
do
if [ -d "$entry" ]; then
((DIRS+=1))
check_dir "$entry"
else if [ -f "$entry" ]; then
((FILES+=1))
#SIZE=$(stat -c%s "$entry")
#((TOTAL_BYTES+=SIZE))
#CREATE_DATE=$(date -r "$entry" +%s)
#CREATE_DATE=$(stat -c%W "$entry")
#DIFF=$((CREATE_DATE-YEAR_AGO))
#if [ $DIFF -ge $SECONDS_IN_YEAR ]; then
# ((OLD_FILES+=1))
#fi
fi
fi
done
}
if [ $# -ne 2 ]; then
echo "Usage: ./srpt path emailaddress"
exit 1
fi
if [ ! -d $1 ]; then
echo "Provided path is invalid"
exit 1
fi
check_dir $1
echo "Execution time $SECONDS"
echo "Dicrecoties $DIRS"
echo "Files $FILES"
echo "Sym links $SYM_LINKS"
echo "Old files $OLD_FILES"
echo "Large files $LARGE_FILES"
echo "Graphics files $IMG_FILES"
echo "Temporary files $TMP_FILES"
echo "Executable files $EXE_FILES"
echo "Total file size $TOTAL_BYTES"
以下是使用上面的注释行执行的结果:
Execution time 1
Dicrecoties 931
Files 14515
Sym links 0
Old files 0
Large files 0
Graphics files 0
Temporary files 0
Executable files 0
Total file size 0
如果我要删除
中的评论SIZE=$(stat -c%s "$entry")
((TOTAL_BYTES+=SIZE))
我得到了:
Execution time 31
Dicrecoties 931
Files 14515
Sym links 0
Old files 0
Large files 0
Graphics files 0
Temporary files 0
Executable files 0
Total file size 447297022
31秒。我怎样才能加速我的脚本? 另外+30秒可以找到日期创建更多一年的文件
答案 0 :(得分:5)
通常情况下,在shell中使用循环表示您采用了错误的方法。
shell之前是一个运行其他工具的工具。
虽然它可以进行计数,awk
是一个更好的工具。
虽然它可以列出并查找文件,但find
更适合它。
最好的shell脚本是那些设法使用一些工具来完成任务的脚本,而不是那些按顺序启动数百万工具并且shell完成所有工作的脚本。
在这里,通常更好的方法是让find
找到文件并收集所需的所有数据,然后awk
将其删除并返回统计信息。这里使用GNU find
和GNU awk
(对于RS='\0'
)和GNU date
(对于-d
):
find . -printf '%y.%s.%Ts%p\0' |
awk -v RS='\0' -F'[.]' -v yearago="$(date -d '1 year ago' +%s)" '
{
type[$1]++;
if ($1 == "f") {
total_size+=$2
if ($3 < yearago) old++
if (!index($NF, "/")) ext[tolower($NF)]++
}
}
END {
printf("%20s: %d\n", "Directories", type["d"])
printf("%20s: %d\n", "Total size", total_size)
printf("%20s: %d\n", "old", old)
printf("%20s: %d\n", "jpeg", ext["jpg"]+ext["jpeg"])
printf("%20s: %d\n", "and so on...", 0)
}'
答案 1 :(得分:4)
关键是要避免启动过多的实用程序。你似乎每个文件调用两个或三个,这将非常慢。
此外,评论显示处理文件名通常很复杂,特别是如果文件名中可能包含空格和/或换行符。但是,如果我正确理解您的问题,您实际上并不需要文件名,因为您只是使用它们来收集信息。
如果你正在使用gnu find
,你可以直接从find
中提取统计信息,因为find
需要做stat()
find
1}}无论如何在每个文件上。这是一个示例,为简单起见,从awk
到summary() {
find "$@" '(' -type f -o -type d ')' -printf '%y %s %C@\n' |
awk '$1=="d"{DIR+=1;next}
$1!="f"{next}
{REG+=1;SIZE+=$2}
$3<'$(date +%s -d"last year")'{OLD+=1}
END{printf "Directories: %d\nFiles: %d\nOld files: %d\nTotal Size: %d\n",
DIR, REG, OLD, SIZE}'
}
的管道:
{{1}}
在我的机器上,在十分之一秒的时间内汇总了4817个目录中的28718个文件。 YMMV。
答案 2 :(得分:2)
你肯定希望避免像你一样解析find
的输出(请参阅我的评论):只要文件名中有空格,它就会中断。
您肯定希望避免分支您的$(stat ...)
或$(date ...)
语句之类的外部流程:每个分支都花费很多!
事实证明,find
本身可以做很多事情。例如,如果我们想要计算文件,目录和链接的数量。
我们都知道bash中的天真方式(几乎就是你所做的):
#!/bin/bash
shopt -s globstar
shopt -s nullglob
shopt -s dotglob
nbfiles=0
nbdirs=0
for f in ./**; do
[[ -f $f ]] && ((++nbfiles))
[[ -d $f ]] && ((++nbdirs))
done
echo "There are $nbdirs directories and $nbfiles files, and we're very happy."
买者。此方法根据链接的链接对链接进行计数:指向文件的链接将计为文件。
find
方式怎么样?计算文件,目录和(符号)链接的数量:
#!/bin/bash
nbfiles=0
nbdirs=0
nblinks=0
while read t n; do
case $t in
dirs) ((nbdirs+=n+1)) ;;
files) ((nbfiles+=n+1)) ;;
links) ((nblinks+=n+1)) ;;
esac
done < <(
find . -type d -exec bash -c 'echo "dirs $#"' {} + \
-or -type f -exec bash -c 'echo "files $#"' {} + \
-or -type l -exec bash -c 'echo "links $#"' {} + 2> /dev/null
)
echo "There are $nbfiles files, $nbdirs dirs and $nblinks links. You're happy to know aren't you?"
相同的原则,使用关联数组,更多字段和更多涉及find
逻辑:
#!/bin/bash
declare -A fields
while read f n; do
((fields[$f]+=n))
done < <(
find . -type d -exec bash -c 'echo "dirs $(($#+1))"' {} + \
-or -type f -exec bash -c 'echo "files $(($#+1))"' {} + -printf 'size %s\n' \
\( \
\( -iname '*.jpg' -printf 'jpg 1\n' -printf 'jpg_size %s\n' \) \
-or -size +100M -printf 'large 1\n' \
\) \
-or -type l -exec bash -c 'echo "links $(($#+1))"' {} + 2> /dev/null
)
for f in "${!fields[@]}"; do
printf "%s: %s\n" "$f" "${fields[$f]}"
done
我希望这会给你一些想法!祝你好运!