我正在开展一个关于如何使用weka数据挖掘工具检测和分类恶意内容的项目。 我开发了一个算法,但问题是我不知道如何以及在哪里添加javascript,html或URl的恶意功能。
例如:如果有(///)三级斜杠,则将其归类为恶意URL。 同样,我还有其他功能,我的算法将对其进行分类。
所以,如果有人知道该怎么做,请回复我。
提前致谢。
答案 0 :(得分:1)
此问题更多是关于功能提取或查找项目的域功能。通常weka使用现成的功能。因此,您的问题不是关于如何查找和使用项目功能的weka。
我对html和javascript无法帮助,但对于以下文章的URL分类可能会有所帮助。
Kan M-Y和Thi HON(2005),“使用URL功能进行快速网页分类”,在第14届ACM国际信息和知识管理会议论文集中。纽约,纽约,美国,第325-326页。 ACM。
Ma J,Saul LK,Savage S和Voelker GM(2009),“超越黑名单:学习从可疑URL中检测恶意网站”,在第15届ACM SIGKDD知识发现和数据挖掘国际会议论文集中。纽约,纽约,美国,第1245-1254页。 ACM。答案 1 :(得分:-1)
我们创建了Windows API调用序列的变态恶意软件。在我们的研究中,我们将每种软件产生的系列转换为8个主要的恶意软件系列:特洛伊木马,后门程序,下载器,蠕虫,间谍软件广告软件,Dropper,病毒。 https://github.com/ocatak/malware_api_class