检测异常/坏文件

时间:2017-07-12 20:20:25

标签: machine-learning classification pattern-recognition

我是机器学习的新手,我正在开发一个项目,我需要根据内容和内部结构检测可能的异常文件。

因此,假设我的普通文件遵循以下模式:

BookName    BookSize    BookRecords
B1            20mb        1000
B2            15mb        750
B3            16mb        1500

可能存在异常或可疑文件:

BookName    Book$iZe    BookRecords
XXXXX         20mb        1000
B2            15mb        null
B3            seven-mb    500.7893
BookName的

XXXXX看起来很可疑;具有null个记录的记录也是可疑的并且具有双重值;在书本上加string (seven-mb)也是可疑的; BookSize name也未正确写入;等等

我需要实现一个程序来检测这些可能的异常或可疑模式,并告诉用户以下文件可能是一个错误的文件。

我知道这属于有监督的机器学习技术,但我不知道它属于哪个特定领域。我是否正确认为这是一个分类问题?如果是这样,我应该采用哪种技术:朴素贝叶斯,决策树,神经网络......?

0 个答案:

没有答案