预处理机器学习数据

时间:2018-03-09 13:34:52

标签: python python-3.x algorithm machine-learning

这可能是一个愚蠢的问题,但我是ML的新手,似乎无法找到明确的答案。

我在Python网络应用程序上实现了ML算法。

现在我将算法在脱机CSV文件中使用的数据存储起来,每次运行算法时,它都会分析所有数据(每次使用算法时都会添加一个新数据)。

道歉,如果我太模糊,但我想知道一般应该如何正确地实施数据和算法,以便:

  1. 数据不存储在CSV中(我只是将其存储在数据库中,就像我使用任何其他类型的数据一样吗?)

  2. 使用某种形式的预处理,以便ML算法不必在每次使用时重复分析相同的数据(或者必须假设每次添加一个新的数据)使用算法?)。

1 个答案:

答案 0 :(得分:1)

  

数据不存储在CSV中(我只是将其存储在数据库中,就像我使用任何其他类型的数据一样吗?)

您可以以任何您喜欢的格式存储。

  

使用某种形式的预处理,以便ML算法不必在每次使用时重复分析相同的数据(或者每次使用算法时都必须添加一个新的数据) ?)。

这在很大程度上取决于您使用的算法。可以容易地实现一些算法以增量方式学习。例如,使用随机梯度下降实现的线性/逻辑回归可以轻松地在每个新实例添加时对其进行快速更新。对于其他算法,完整的重新训练是唯一的选择(尽管你当然可以选择不要总是为每个新实例反复训练;例如,你可以简单地每天在一个设定点重新训练一次及时)。