我正在尝试从RSS供稿中提取信息。我遇到两个问题。
首先是,每次击中Logstash间隔时,我都会得到重复项,当前间隔设置为5分钟。最好的方法是什么?
第二个原因是我不确定从每个提要条目中获取某些数据的最佳方法,因为我不需要所有信息。我尝试测试了grok,但我不确定那是最好的选择
我在下面的Feed中添加了一个示例条目: https://www.virustotal.com/file/c84d547d76dcfce40ded583da665861a6fcdced426214dd78f6f62b07d7c4c5d/analysis/ c84d547d76dcfce40ded583da665861a6fcdced426214dd78f6f62b07d7c4c5d-2019-02-18 15:00:52-EPZCHLTUWDGK-notification.subject 2019年2月18日星期一15:00:52 +0000 md5:b1d723b18e879b4f6d350995c4133890 sha1:03ebe11cb413ca15022906844cdf628c708e666c sha256:0b3a0f9282bbb91d5d7770ec4cf392bb0c69da9074ecba6b464ec1a3868ad840 大小:1357312 类型:Win32 EXE 肯定:49 合计:65 首次提交:2019-02-18 14:53:18 最后提交:2019-02-18 14:53:18 扫描:数据 规则集:EPZCHLTUWDGK 规则:zeus_v1 比赛: id:5374337132199936
答案 0 :(得分:1)
最终利用python中的JSON模块来解决此问题。还使用数据中的一个字段作为关键字来比较供稿中将来使用的项目,如果该关键字存在,则可以忽略它。