如何在weka中添加恶意功能作为数据集进行分类

时间:2013-02-06 19:27:36

标签: java classification weka webcontent

我正在开展一个关于如何使用weka数据挖掘工具检测和分类恶意内容的项目。 我开发了一个算法,但问题是我不知道如何以及在哪里添加javascript,html或URl的恶意功能。

例如:如果有(///)三级斜杠,则将其归类为恶意URL。 同样,我还有其他功能,我的算法将对其进行分类。

所以,如果有人知道该怎么做,请回复我。

提前致谢。

2 个答案:

答案 0 :(得分:1)

此问题更多是关于功能提取或查找项目的域功能。通常weka使用现成的功能。因此,您的问题不是关于如何查找和使用项目功能的weka。

我对html和javascript无法帮助,但对于以下文章的URL分类可能会有所帮助。

Kan M-Y和Thi HON(2005),“使用URL功能进行快速网页分类”,在第14届ACM国际信息和知识管理会议论文集中。纽约,纽约,美国,第325-326页。 ACM。

Ma J,Saul LK,Savage S和Voelker GM(2009),“超越黑名单:学习从可疑URL中检测恶意网站”,在第15届ACM SIGKDD知识发现和数据挖掘国际会议论文集中。纽约,纽约,美国,第1245-1254页。 ACM。

答案 1 :(得分:-1)

我们创建了Windows API调用序列的变态恶意软件。在我们的研究中,我们将每种软件产生的系列转换为8个主要的恶意软件系列:特洛伊木马,后门程序,下载器,蠕虫,间谍软件广告软件,Dropper,病毒。 https://github.com/ocatak/malware_api_class