Question

上午/晚上，

我遇到了一个问题，我正在制作一个使用ClamAV扫描恶意软件的工作脚本，然后将结果放在MySQL中，通过使用带有awk的grep生成ClamAV日志来转换正确的部分登录变量。我遇到的问题是，虽然我已经完成了总结，但检测的语法使它稍微困难一些。我无论如何都不是正则表达式的专家，这是一种学习经验，所以有可能做得比我更好！

我试图解析的行看起来像这样：

/net/nas/vol0/home/recep/SG4rt.exe: Worm.SomeFool.P FOUND
/net/nas/vol0/home/recep/SG4rt.exe: moved to '/srv/clamav/quarantine/SG4rt.exe'

就我能够建立而言，我需要一个积极的lookbehind来匹配冒号之前和之前发生的事情，而不是真正匹配冒号或之后的空间，我看不清楚这样做的明确方法来自RegExr没有它认为我正在寻找两个冒号。更糟糕的是，我们有时也会得到这些......

WARNING: Can't open file /net/nas/vol0/home/laser/samples/sample1.avi: Permission denied

最终的结果是我可以构建一个MySQL查询来插入路径，找到的恶意软件以及它被移动到的位置，或者路径是否有错误，然后遇到错误以便将每个元素转换为变量while语句中的内容。

我已完成扫描摘要如下：

摘要如下：

----------- SCAN SUMMARY -----------
Known viruses: 329
Engine version: 0.97.1
Scanned directories: 17350
Scanned files: 50342
Infected files: 3
Total errors: 1
Data scanned: 15551.73 MB
Data read: 16382.67 MB (ratio 0.95:1)
Time: 3765.236 sec (62 m 45 s)

像这样解析：

SCANNED_DIRS=$(cat /srv/clamav/$IY-scan-$LOGTIME.log | grep "Scanned directories" | awk '{gsub("Scanned directories: ", "");print}')
SCANNED_FILES=$(cat /srv/clamav/$IY-scan-$LOGTIME.log | grep "Scanned files" | awk '{gsub("Scanned files: ", "");print}')
INFECTED=$(cat /srv/clamav/$IY-scan-$LOGTIME.log | grep "Infected files" | awk '{gsub("Infected files: ", "");print}')
DATA_SCANNED=$(cat /srv/clamav/$IY-scan-$LOGTIME.log | grep "Data scanned" | awk '{gsub("Data scanned: ", "");print}')
DATA_READ=$(cat /srv/clamav/$IY-scan-$LOGTIME.log | grep "Data read" | awk '{gsub("Data read: ", "");print}')
TIME_TAKEN=$(cat /srv/clamav/$IY-scan-$LOGTIME.log | grep "Time" | awk '{gsub("Time: ", "");print}')
END_TIME=$(date +%s)
mysql -u scanner_parser --password=removed sc_live -e "INSERT INTO bs.live.bs_jobstat VALUES (NULL, '$CURRTIME', '$PID', '$IY', '$SCANNED_DIRS', '$SCANNED_FILES', '$INFECTED', '$DATA_SCANNED', '$DATA_READ', '$TIME_TAKEN', '$END_TIME');"
rm -f /srv/clamav/$IY-scan-$LOGTIME.log

其中一些变量来自脚本的其他部分，可以忽略。我这样做的原因是为了保存日志文件的混乱，并且有一个简单的基于Web的系统状态概述。

任何线索？我是否会以错误的方式解决这个问题？提前感谢您的帮助，我很感激！

Answer 1

根据我可以从问题中确定的内容，您似乎在询问如何区分您想要的记录行以警告，错误，信息开头。

你可以做到这一点，而不用前瞻或后视。只需grep 以

开头的行

"/net/nas/vol0/home/recep/SG4rt.exe: "

然后使用awk你可以提取该行的其余部分。或者您可以像在摘要处理部分中那样gsub前缀。

关于处理摘要的问题，最让我印象深刻的是你正在多次处理整个文件，每次都拉出一种线。对于这样的任务，我会使用Perl，Ruby或Python并通过文件进行一次传递，收集冒号后的每一行的片段，将它们存储在常规编程语言变量（不是env变量）中，并形成MySQL插入使用插值的字符串。

Bash非常适合某些事情，但恕我直言，你有理由使用更通用的脚本语言（Perl，Python，Ruby）。

Parse ClamAV使用Regex在Bash脚本中登录以插入MySQL

1 个答案: