Parse ClamAV使用Regex在Bash脚本中登录以插入MySQL

时间:2011-07-12 09:10:08

标签: mysql regex bash awk grep

上午/晚上,

我遇到了一个问题,我正在制作一个使用ClamAV扫描恶意软件的工作脚本,然后将结果放在MySQL中,通过使用带有awk的grep生成ClamAV日志来转换正确的部分登录变量。我遇到的问题是,虽然我已经完成了总结,但检测的语法使它稍微困难一些。我无论如何都不是正则表达式的专家,这是一种学习经验,所以有可能做得比我更好!

我试图解析的行看起来像这样:

/net/nas/vol0/home/recep/SG4rt.exe: Worm.SomeFool.P FOUND
/net/nas/vol0/home/recep/SG4rt.exe: moved to '/srv/clamav/quarantine/SG4rt.exe'

就我能够建立而言,我需要一个积极的lookbehind来匹配冒号之前和之前发生的事情,而不是真正匹配冒号或之后的空间,我看不清楚这样做的明确方法来自RegExr没有它认为我正在寻找两个冒号。更糟糕的是,我们有时也会得到这些......

WARNING: Can't open file /net/nas/vol0/home/laser/samples/sample1.avi: Permission denied

最终的结果是我可以构建一个MySQL查询来插入路径,找到的恶意软件以及它被移动到的位置,或者路径是否有错误,然后遇到错误以便将每个元素转换为变量while语句中的内容。

我已完成扫描摘要如下:

摘要如下:

----------- SCAN SUMMARY -----------
Known viruses: 329
Engine version: 0.97.1
Scanned directories: 17350
Scanned files: 50342
Infected files: 3
Total errors: 1
Data scanned: 15551.73 MB
Data read: 16382.67 MB (ratio 0.95:1)
Time: 3765.236 sec (62 m 45 s)

像这样解析:

SCANNED_DIRS=$(cat /srv/clamav/$IY-scan-$LOGTIME.log | grep "Scanned directories" | awk '{gsub("Scanned directories: ", "");print}')
SCANNED_FILES=$(cat /srv/clamav/$IY-scan-$LOGTIME.log | grep "Scanned files" | awk '{gsub("Scanned files: ", "");print}')
INFECTED=$(cat /srv/clamav/$IY-scan-$LOGTIME.log | grep "Infected files" | awk '{gsub("Infected files: ", "");print}')
DATA_SCANNED=$(cat /srv/clamav/$IY-scan-$LOGTIME.log | grep "Data scanned" | awk '{gsub("Data scanned: ", "");print}')
DATA_READ=$(cat /srv/clamav/$IY-scan-$LOGTIME.log | grep "Data read" | awk '{gsub("Data read: ", "");print}')
TIME_TAKEN=$(cat /srv/clamav/$IY-scan-$LOGTIME.log | grep "Time" | awk '{gsub("Time: ", "");print}')
END_TIME=$(date +%s)
mysql -u scanner_parser --password=removed sc_live -e "INSERT INTO bs.live.bs_jobstat VALUES (NULL, '$CURRTIME', '$PID', '$IY', '$SCANNED_DIRS', '$SCANNED_FILES', '$INFECTED', '$DATA_SCANNED', '$DATA_READ', '$TIME_TAKEN', '$END_TIME');"
rm -f /srv/clamav/$IY-scan-$LOGTIME.log

其中一些变量来自脚本的其他部分,可以忽略。我这样做的原因是为了保存日志文件的混乱,并且有一个简单的基于Web的系统状态概述。

任何线索?我是否会以错误的方式解决这个问题?提前感谢您的帮助,我很感激!

1 个答案:

答案 0 :(得分:1)

根据我可以从问题中确定的内容,您似乎在询问如何区分您想要的记录行以警告,错误,信息开头。

你可以做到这一点,而不用前瞻或后视。只需grep

开头的行
"/net/nas/vol0/home/recep/SG4rt.exe: "

然后使用awk你可以提取该行的其余部分。或者您可以像在摘要处理部分中那样gsub前缀。

关于处理摘要的问题,最让我印象深刻的是你正在多次处理整个文件,每次都拉出一种线。对于这样的任务,我会使用Perl,Ruby或Python并通过文件进行一次传递,收集冒号后的每一行的片段,将它们存储在常规编程语言变量(不是env变量)中,并形成MySQL插入使用插值的字符串。

Bash非常适合某些事情,但恕我直言,你有理由使用更通用的脚本语言(Perl,Python,Ruby)。