应用错误收集

这可能是一个愚蠢的问题，但我是ML的新手，似乎无法找到明确的答案。

我在Python网络应用程序上实现了ML算法。

现在我将算法在脱机CSV文件中使用的数据存储起来，每次运行算法时，它都会分析所有数据（每次使用算法时都会添加一个新数据）。

道歉，如果我太模糊，但我想知道一般应该如何正确地实施数据和算法，以便：

数据不存储在CSV中（我只是将其存储在数据库中，就像我使用任何其他类型的数据一样吗？）
使用某种形式的预处理，以便ML算法不必在每次使用时重复分析相同的数据（或者必须假设每次添加一个新的数据）使用算法？）。

数据不存储在CSV中（我只是将其存储在数据库中，就像我使用任何其他类型的数据一样吗？）

您可以以任何您喜欢的格式存储。

使用某种形式的预处理，以便ML算法不必在每次使用时重复分析相同的数据（或者每次使用算法时都必须添加一个新的数据）？）。

这在很大程度上取决于您使用的算法。可以容易地实现一些算法以增量方式学习。例如，使用随机梯度下降实现的线性/逻辑回归可以轻松地在每个新实例添加时对其进行快速更新。对于其他算法，完整的重新训练是唯一的选择（尽管你当然可以选择不要总是为每个新实例反复训练;例如，你可以简单地每天在一个设定点重新训练一次及时）。

预处理机器学习数据

1 个答案: