我是机器学习的新手,我正在开发一个项目,我需要根据内容和内部结构检测可能的异常文件。
因此,假设我的普通文件遵循以下模式:
BookName BookSize BookRecords
B1 20mb 1000
B2 15mb 750
B3 16mb 1500
可能存在异常或可疑文件:
BookName Book$iZe BookRecords
XXXXX 20mb 1000
B2 15mb null
B3 seven-mb 500.7893
BookName的 XXXXX
看起来很可疑;具有null
个记录的记录也是可疑的并且具有双重值;在书本上加string (seven-mb)
也是可疑的; BookSize name
也未正确写入;等等
我需要实现一个程序来检测这些可能的异常或可疑模式,并告诉用户以下文件可能是一个错误的文件。
我知道这属于有监督的机器学习技术,但我不知道它属于哪个特定领域。我是否正确认为这是一个分类问题?如果是这样,我应该采用哪种技术:朴素贝叶斯,决策树,神经网络......?