数据集按行包含不同的项目,列包含记录的样本,其中一半为正类,另一半为负类。现在,我想创建并训练一个模型,将看不见的项目样本分类为正或负。
问题:如何处理(使用)这样的数据集?
并且,对于模型的任何建议,因为行数超过50k,列数为12正和12负。
现在,根据这些数据,将创建一个模型,该模型可以根据提供的值将x(或y或z)分类为正值或负值。例如,如果为x提供的值为12,则模型会将x评估为正。
答案 0 :(得分:0)
只要我理解您的问题,您就有一个变量作为输入,比如说x。此变量可以保存一些值(正例),而不能容纳其他值(负例)。现在,给定x的新值,您想知道该值是否对x合理。
您谈到了培训。我猜您在思考神经网络。在这种情况下,只需在表的第一行(x行)中创建一个数据集,如下所示:
D = [
[10, 1],
[11, 1],
[13, 1],
[14, 1],
[16, 0],
[15, 0],
[14, 0],
[16, 0],
]
第一个元素是您的价值。第二个元素告诉您的网络是一个合理的值(1)还是不是(0)。记住要对数据集进行混洗,以避免与网络中的样本高度相关(从理论上讲,它们应该是id)。
您的网络将仅具有1个神经元作为输入,而具有1个神经元作为输出。最后一层将是S型激活函数(因为它被限制在0和1之间)。使用二进制交叉熵损失。
给出评论,这是更新的答案。
数据集必须为以下内容:
D = [
[10, 0.67, 25, ..., 1],
[16, 0.15, 20.5, ..., 0],
[...]
]
该网络与上述网络相同,但是现在输入的维数等于行数。