我有一个与现实世界中的机器学习应用有关的问题。这可能听起来很愚蠢哈哈。
我一直在自学机器学习一段时间,大部分练习都是使用csv文件作为数据源(处理和原始)。我想问除了导入csv文件以外还有其他任何方法可以为机器学习提供数据吗?
示例:实时流式传输Facebook / Twitter实时馈送的机器学习数据,而不是收集旧数据并将其存储到CSV文件中。
答案 0 :(得分:2)
数据源可以是任何东西。通常,它以CSV或JSON文件的形式提供。但是在现实世界中,假设你有一个像Twitter这样的网站,正如你所提到的那样,你将把数据存储在一个合理的数据库中,比如SQL数据库,对于一些数据,你要把它们放在一个-memory cache。
您基本上可以利用这两者来检索数据并对其进行处理。这里的事情是当你有太多的数据要适应内存时,你不能真正只查询所有内容并处理它,在这种情况下,你将利用一些智能算法来处理数据块。
某些数据库(如SQL)的优点在于它们为您提供了一组函数,您可以在SQL脚本中直接调用这些函数来有效地计算某些数据。例如,您可以使用SUM()
函数SQL获取整个表中的列的总和,这样可以实现高效,简单的数据操作