我正在尝试确定我应该收集的理想样本数量和数据实例。基本上,我必须创建一个网络流量数据集。
我不确定每个样本中的样本数和实例数如何影响训练数据。是否有大量样品好?那么,我应该尝试收集尽可能多的实例吗?
我的想法是在不同的日子里收集两个不同的样本。然后,对于每个样本中的每个程序/协议,我将收集大约30个实例。
我将使用SVM算法。
感谢您的帮助和任何澄清。而且,我也不确定我是否混淆了定义(样本与实例)。
答案 0 :(得分:1)
我不完全确定你在实例和样本之间的区别(通常它们意味着相同的东西),但总的来说(只要你的数据收集过程是合理的),数据越多越好。对大多数学习者的表现做出一些概率保证所需的数据实例数量有一些结果,但这些结果通常不实用,并且会超出您需要的数据量。总的来说,收集尽可能多的数据,无论是收集成本还是运行学习算法的计算成本。