为机器学习提供数据的替代方法(使用CSV文件除外)

时间:2017-07-08 13:10:40

标签: csv machine-learning machine-learning-model

我有一个与现实世界中的机器学习应用有关的问题。这可能听起来很愚蠢哈哈。

我一直在自学机器学习一段时间,大部分练习都是使用csv文件作为数据源(处理和原始)。我想问除了导入csv文件以外还有其他任何方法可以为机器学习提供数据吗?

示例:实时流式传输Facebook / Twitter实时馈送的机器学习数据,而不是收集旧数据并将其存储到CSV文件中。

1 个答案:

答案 0 :(得分:2)

数据源可以是任何东西。通常,它以CSV或JSON文件的形式提供。但是在现实世界中,假设你有一个像Twitter这样的网站,正如你所提到的那样,你将把数据存储在一个合理的数据库中,比如SQL数据库,对于一些数据,你要把它们放在一个-memory cache。

您基本上可以利用这两者来检索数据并对其进行处理。这里的事情是当你有太多的数据要适应内存时,你不能真正只查询所有内容并处理它,在这种情况下,你将利用一些智能算法来处理数据块。

某些数据库(如SQL)的优点在于它们为您提供了一组函数,您可以在SQL脚本中直接调用这些函数来有效地计算某些数据。例如,您可以使用SUM()函数SQL获取整个表中的列的总和,这样可以实现高效,简单的数据操作