我正在尝试在包含普通和恶意网络数据包的数据集上构建二进制分类算法(输出为0或1)。 数据集形状(在将IP @&和hexa转换为十进制之后)是: IP src, IP dest, ports, TTL, etc..
注意:最后一列是输出。
Keras模型是:
from keras.models import Sequential
from keras.layers import Dense
from sklearn import preprocessing
import numpy
import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3'
seed = 4
numpy.random.seed(seed)
dataset = numpy.loadtxt("NetworkPackets.csv", delimiter=",")
X = dataset[:, 0:11].astype(float)
Y = dataset[:, 11]
model = Sequential()
model.add(Dense(12, input_dim=11, kernel_initializer='normal', activation='relu'))
model.add(Dense(12, kernel_initializer='normal', activation='relu'))
model.add(Dense(1, kernel_initializer='normal', activation='relu'))
model.compile(loss='binary_crossentropy', optimizer='Adam', metrics=['accuracy'])
model.fit(X, Y, nb_epoch=100, batch_size=5)
scores = model.evaluate(X, Y)
print("\n%s: %.2f%%" % (model.metrics_names[1], scores[1]*100))
但是,我尝试了不同的优化器,激活函数,层数,但准确度最多达到0.5: Result
即使我尝试使用网格搜索来搜索最佳参数,但最大值为0.5。 有谁知道为什么输出总是这样?以及如何加强它。 提前谢谢!
答案 0 :(得分:1)
您的模型甚至没有超越随机机会模型,因此数据中必定存在问题。 可能有两种可能性
1 - 您没有向模型提供足够的训练样本,以便识别重要特征以区分正常和恶意。
2 - 数据本身的信息量不足以推导出您正在寻找的决策。